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内 容 提要 


本 书 则 在 为 读者 提供 有 关 深 度 学 习 的 交互 式 学 习 体 验 。 书 中 不 仅 阐 述 深 度 学 习 的 算法 原理 ， 还 演 
示 它 们 的 实现 和 运行 。 与 传统 图 书 不 同 ， 本 书 的 每 一 节 都 是 一 个 可 以 下 载 并 运行 的 Jupyter 记事 本 , € 
将 文字 、 公 式 、 图 像 、 代 码 和 运行 结果 结合 在 了 一 起 。 此 外 ， 读 者 还 可 以 参与 书 中 内 容 的 讨论 。 

全 书 的 内 容 分 为 3 个 部 分 : 第 一 部 分 介绍 深度 学 习 的 背景 ， 提 供 预 备 知 识 ， 并 包括 深度 学 习 最 基 
础 的 概念 和 技术 ; 第 二 部 分 描述 深度 学 习 计 算 的 重要 组 成 部 分 ， 还 解释 近年 来 令 深度 学 习 在 多 个 领域 
大 获 成 功 的 卷 积 神经 网 络 和 循环 神经 网 络 ， 第 三 部 分 评价 优化 算法 ， 检 验 影响 深度 学 习 计 算 性 能 的 重 
要 因素 ， 并 分 别 列举 深度 学 习 在 计算 机 视觉 和 自然 语言 处 理 中 的 重要 应 用 。 

本 书 同 时 覆盖 深度 学 习 的 方法 和 实践 ， 主 要 面向 在 校 大 学 生 、 技 术 人 员 和 研究 人 员 。 阅 读本 书 需 
要 读者 了 解 基本 的 Python 编程 或 附录 中 描述 的 线性 代数 、 微 分 和 概率 基础 。 
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bal Opal - 张 
(Aston Zhang) 

亚马逊 应 用 科学 家 ， 美 国 伊利 诺 伊 大 学 香槟 分 
校 计 算 机 科学 博士 ， 统 计 学 和 计算 机 科学 双 硕 
士 。 他 专注 于 机 器 学 习 的 研究 ， 并 在 数 个 顶级 
学 术 会 议 发 表 过 论文 。 他 担任 过 NeurlPS、 

ICML, KDD、WWW、WSDM、SIGIR、 

AAAI 等 学 术 会 议 的 程序 委员 或 审 稿 人 以 及 
Frontiers in Big Data 期 刊 的 编 委 。 





李 沐 


(Mu Li) 


亚马逊 首席 科学 家 (Principal Scientist) , 
加 州 大 学 伯克利 分 校 客座 助理 教授 ， 美 国 卡 
内 基 梅 隆 大 学 计算 机 系 博士 。 他 专注 于 分 布 式 
系统 和 机 器 学 习 算法 的 研究 。 他 是 深度 学 习 框 
架 MXNet 的 作者 之 一 。 他 曾 任 机 器 学 习 创 业 
公司 Marianas Labs 的 CTO 和 百度 深度 学 
习 研 究 院 的 主任 研发 架构 师 。 他 在 理论 、 机 
器 学 习 、 应 用 和 操作 系统 等 多 个 领域 的 顶级 
学 术 会 议 (B FOCS, ICML, NeuriPS, 
AISTATS, CVPR, KDD WSDM, 
OSDI) 上 发 表 过 论文 。 
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LFE C. 立顿 


(Zachary C. Lipton) 


亚马逊 应 用 科学 家 ， 美 国 卡 内 基 梅 隆 大 学 助 
理 教授 ， 美 国 加 州 大 学 圣迭戈 分 校 博士 。 
他 专注 于 机 器 学 习 算 法 及 其 社会 影响 的 研 
究 ， 特 别 是 在 时 序数 据 与 序列 决策 上 的 深 
度 学 习 。 这 类 工作 有 着 广泛 的 应 用 场景 ， 
包括 医疗 诊断 、 对 话 系统 和 产品 推荐 。 他 
创立 了 博客 “Approximately Correct” 
( approximatelycorrect.com ) 。 





WALUR J. MAA 


(Alexander J. Smola) 


亚马逊 副 总 裁 / 杰出 科学 家 ， 德 国 柏林 工业 大 
学 计算 机 科学 博士 。 他 曾 在 澳大利亚 国立 大 
学 、 美 国 加 州 大 学 伯克利 分 校 和 卡 内 基 梅 隆 
大 学 任教 。 他 发 表 了 超过 200 篇 学 术 论文 ， 
并 著 有 5 本 书 ， 其 论文 及 书 被 引用 超过 10 万 
次 。 他 的 研究 兴趣 包括 深度 学 习 、 贝 叶 斯 非 
参数 、 核 方法 、 统 计 建 模 和 可 扩展 算法 。 








来 目 学 术 界 


这 是 一 本 及 时 且 引 人 入 胜 的 书 。 它 不 仅 提 供 了 深度 学 习 原 理 的 全 面 概述 ， 还 提供 了 具有 编 

程 代码 的 详细 算法 ， 此 外 ， 还 提供 了 计算 机 视觉 和 自然 语言 处 理 中 有 关 深 度 学 习 的 最 新 介绍 。 
如 果 你 想 钻研 深度 学 习 ， 请 研读 这 本 书 ! | 

| HRH 

ACM f+, IEEE 院士 

美国 伊利 诺 伊 大 学 香槟 分 校 计 算 机 系 Abel Bliss 教授 


这 是 对 机 器 学 习 文 献 的 一 个 很 受 欢迎 的 补充 ， 重 点 是 通过 集成 Jupyter 记事 本 实现 的 动手 
经 验 。 深 度 学 习 的 学 生 应 该 能 体会 到 ， 这 对 于 熟练 掌握 这 一 领域 是 非常 宝贵 的 。 

Bernhard Schélkopf 

ACM 院士 、 德 国 国家 科学 院 院 士 

德国 马克 斯 。 普 朗 克 研 究 所 智能 系统 院 院 长 


这 本 书 基 于 MXNet 框架 来 介绍 深度 学 习 技术 ， 书 中 代码 可 谓 “ 所 学 即 所 用 ”， 为 喜欢 通过 
Python 代码 进行 学 习 的 读者 接触 、 了 解 深度 学 习 技 术 提供 了 很 大 的 便利 。 

周志 华 

ACM 院士 、IEEE 院士 、AAAS 院士 

南京 大 学 计算 机 科学 与 技术 系 主任 


来 目 工 业界 


虽然 业界 已 经 有 不 错 的 深度 学 习 方面 的 书籍 ， 但 都 不 够 紧密 结合 工业 界 的 应 用 实践 。 我 
认为 《动手 学 深度 学 习 》 是 最 适合 工业 界 研发 工程 师 学 习 的， 因为 这 本 书 把 算法 理论 、 应 用 场 
景 、 代 码 实例 都 完美 地 联系 在 一 起 ， 引 导读 者 把 理论 学 习 和 应 用 实践 紧密 结合 ， 知 行 合 一 ， 在 
动手 中 学 习 ， 在 体会 和 领会 中 不 断 深 化 对 深度 学 习 的 理解 。 因此 我 毫 无 保留 地 向 广大 的 读者 


。2。 对 本 书 的 赞誉 


强烈 推荐 《动手 学 深度 学 习 》。 
余 凯 
地 平 线 公 司 创始 人 、 首 席 执 行 官 


强烈 推荐 这 本 书 ! 它 其 实 远 不 只 是 一 本 书 : 它 不 仅 讲解 深度 学 习 背 后 的 数学 原理 ， 更 是 一 
个 编程 工作 台 与 记事 本 ， 让 读者 可 以 一 边 动手 学 习 一 边 收 到 反馈 ， 它 还 是 个 开源 社区 平台 ， 让 
大 家 可 以 交流 。 作 为 在 AI 学 术 界 和 工业 界 都 长 期 工作 过 的 人 ， 我 特别 赞赏 这 种 手 脑 一 体 的 学 
习 方 式 ， 既 能 增强 实践 能 力 ， 又 可 以 在 解决 问题 中 锻炼 独立 思考 和 批判 性 思维 。 


作者 们 是 算法 、 工 程 兼 强 的 业界 撼 楚 ， 他 们 能 奉献 出 这 样 的 一 本 好 的 开源 书 ， 为 他 们 点 赞 | 
Rik 
蚂蚁 金 服 副 总 裁 、 首 席 人 工 智能 科学 家 


这 是 一 本 基于 Apache MXNet 的 深度 学 习 实 战 书籍 ， 可 以 帮助 读者 快速 上 手 并 掌握 使 用 深 

度 学 习 工 具 的 基本 技能 。 本 书 的 几 个 作者 都 在 机 器 学 习 领 域 有 着 非常 丰富 的 经 验 。 他 们 不 光 有 

大 量 的 工业 界 实践 经 验 ， 也 有 非常 高 的 学 术 成 就 ， 所 以 对 机 器 学 习 领 域 的 前 沿 算法 理解 深刻 。 

这 使 得 作者 们 在 提供 优质 代码 的 同时 ， 也 可 以 把 最 前 沿 的 算法 和 概念 深入 浅 出 地 介绍 给 读者 。 
这 本 书 可 以 帮助 深度 学 习 实践 者 快速 提升 自己 的 能 力 。 

张 潼 

腾讯 人 工 智能 实验 室 主 任 


一 年 前 作者 开始 在 将 门 技 术 社 群 中 做 深度 学 习 的 系列 讲座 ， 当 时 我 就 对 动手 式 讲座 的 内 容 
和 形式 感到 和 耳目一新。 一 年 过 去 ， 看 到 《动手 学 深度 学 习 》 在 持续 精心 打磨 后 终于 成 书 出 版 ， 
感觉 十 分 欣喜 ! 


深度 学 习 是 当前 人 工 智 能 研究 中 的 热门 领域 ， 吸 引 了 大 量 感 兴 趣 的 开发 者 踊跃 学 习 相 关 的 
开发 技术 。 然 而 对 大 多 数学 习 者 而 言 ， 掌 握 深 度 学 习 是 一 件 很 不 容易 的 事情 ， 需 要 相继 翻越 数 
学 基础 、 算 法 理论 、 编 程 开 发 、 领 域 应 用 、 软 硬 优化 等 几 座 大 山 。 因 此 学 习 过 程 不 容易 一 帆 风 
顺 ， 我 也 看 到 很 多 学 习 者 还 没 进入 开发 环节 就 在 理论 学 习 的 过 程 中 抱 憾 放弃 了 。 然 而 《动手 学 
深度 学 习 》 却 是 一 本 很 容易 让 学 习 者 上 瘾 的 书 ， 它 最 大 的 特色 是 强调 在 动手 编程 中 学 习 理 论 和 
培养 实战 能 力 。 赔 读本 书 最 愉悦 的 感受 是 它 很 好 地 平衡 了 理论 介绍 和 编程 实 操 ， 内 容 简 明 扼 
要 ， 衔 接 自 然 流畅 ， 既 反映 了 现代 深度 学 习 的 进展 ， 又 兼 具 易 学 和 实用 特性 ， 是 深度 学 习 爱 好 
者 难得 的 学 习 材料 。 特 别 值得 称赞 的 是 本 书 选择 了 Jupyter 记事 本 作为 开发 学 习 环境 ， 将 教材 、 
文档 和 代码 统一 起 来 ， 给 读者 提供 了 可 以 立即 尝试 修改 代码 和 观察 运行 效果 的 交互 式 的 学 习 体 
验 ， 使 学 习 充 满 了 乐趣 。 

在 过 去 的 一 年 中 ， 作 者 和 社区 成 员 对 《动手 学 深度 和 学习》 进行 了 大 量 优 化 修改 才 得 以 成 书 ， 
可 以 说 这 是 一 本 深度 学 习 前 沿 实 践 者 给 深度 学 习 爱 好 者 带 来 的 诚心 之 作 ， 相 信 大 家 都 能 在 阅读 
和 实践 中 拥有 一 样 的 共鸣 。 

沈 强 
将 门 创 投 创 始 合伙 人 


献 给 我 们 的 家 人 





就 在 几 年 前 ， 不 管 在 大 公司 还 是 创业 公司 ， 都 鲜 有 工程 师 和 科学 家 将 深度 学 习 应 用 到 智能 
产品 与 服务 中 。 作 为 深度 学 习 前 身 的 神经 网 络 ， 才 刚刚 摆脱 被 机 器 学 习 学 术 界 认为 是 过 时 工具 
的 印象 。 那 个 时 候 ， 即 使 是 机 器 学 习 也 非 新 闻 头 条 的 常客 。 它 仅仅 被 看 作 是 一 门 具 有 前 瞻 性 ， 并 
拥有 一 系列 小 范围 实际 应 用 的 学 科 。 在 包含 计算 机 视觉 和 上 自然 语言 处 理 在 内 的 实际 应 用 通常 需 
要 大 量 的 相关 领域 知识 : 这 些 实际 应 用 被 视 为 相互 独立 的 领域 ， 而 机 器 学 习 只 占 其 中 一 小 部 分 。 


然而 仅仅 在 这 几 年 之 内 ， 深 度 学 习 便 令 全 世界 大 吃 一 惊 。 它 非常 有 力 地 推动 了 计算 机 视 
觉 、 目 然 语 言 处 理 、 目 动 语音 识别 、 强 化 学 习 和 统计 建 模 等 多 个 领域 的 快速 发 展 。 随 着 这 些 领 
域 的 不 断 进步 ， 我 们 现在 可 以 制造 自动 驾驶 的 汽车 ， 基 于 短信 、 邮 件 甚至 电话 的 自动 回复 系 
统 ， 以 及 在 围棋 中 击败 最 优秀 人 类 选手 的 软件 。 这 些 由 深度 学 习 带 来 的 新 工具 也 正 产生 着 广泛 
的 影响 : 它们 改变 了 电影 制作 和 疾病 诊断 的 方式 ， 并 在 从 天 体 物理 学 到 生物 学 等 各 个 基础 科学 
中 扮演 越 来 越 重 要 的 角色 。 


与 此 同时 ， 深 度 学 习 也 给 它 的 使 用 者 们 带 来 了 独一无二 的 挑战 :任何 单一 的 应 用 都 汇集 了 
各 学 科 的 知识 。 具 体 来 说 ， 应 用 深度 学 习 需 要 同时 理解 : 


问题 的 动机 和 特点 ; 

将 大 量 不 同类 型 神经 网 络 层 通过 特定 方式 组 合 在 一 起 的 模型 背后 的 数学 原理 ，; 
在 原始 数据 上 拟 合 极 复杂 的 深层 模型 的 优化 算法 ; 

有 效 训练 模型 、 避 人 免 数 值 计算 陷阱 以 及 充分 利用 硬件 性 能 所 需 的 工程 技能 ; 
为 解决 方案 挑选 合适 的 变量 〈 超 参数 ) ASGHAR. 


同样 ， 我 们 几 位 作者 也 面临 前 所 未 有 的 挑战 : 我 们 需要 在 有 限 的 篇 幅 里 灶 合 深度 学 习 的 多 
方面 知识 ， 从 而 使 读者 能 够 较 快 理解 并 应 用 深度 学 习 技 术 。 本 书 代表 了 我 们 的 一 种 尝试 : 我 们 
将 教 给 读者 概念 、 背 景 知识 和 代码 ;， 我们 将 在 同一 个 地 方 阐述 剖析 问题 所 需 的 批判 性 思维 、 解 
决 问 题 所 需 的 数学 知识 ， 以 及 实现 解决 方案 所 需 的 工程 技能 。 


包 仿 代码、 数学、 网页、 讨论 的 统一 资源 


我 们 在 2017 年 7 月 局 动 了 写作 这 本 书 的 项 目 。 当 时 我 们 需要 向 用 户 解释 Apache MXNet 


aul 


Je 前 


的 新 接口 Gluon。 遗 憾 的 是 ， 我 们 并 没有 找到 任何 一 个 资源 可 以 同时 满足 以 下 儿 扣 需求 : 


© 包含 较 新 的 方法 和 应 用 ， 并 不 断 更 新 ; 

。 广泛 覆盖 现代 深度 学 习 技 术 并 具有 一 定 的 技术 深度 ; 

© 既是 严谨 的 教科 书 ， 又 是 包含 可 运行 代码 的 生动 的 教程 。 

那 时 ， 我 们 在 博客 和 GitHub 上 找到 了 大 量 的 演示 特定 深度 学 习 框 架 iH TensorFlow 
进行 数值 计算 ) 或 实现 特定 模型 (例如 AlexNet、ResNet 等 ) 的 示例 代码 。 这 些 示例 代码 的 一 
大 价值 在 于 提供 了 教科 书 或 论文 往往 省 略 的 实现 细节 ， 比 如 数据 的 处 理 和 运算 的 高 效率 实现 。 
如 果 不 了 解 这 些 ， 即 使 能 将 算法 倒 背 如 流 ， 也 难以 将 算法 应 用 到 自己 的 项 目 中 去 。 此 外 ， 这 些 
示例 代码 还 使 得 用 户 能 通过 观察 修改 代码 所 导致 的 结果 变化 而 快速 验证 想法 、 积 累 经 验 。 因 
此 ， 我 们 坚信 动手 实践 对 于 学 习 深 度 学 习 的 重要 性 。 然 而 可 惜 的 是 ， 这 些 示例 代码 通常 侧重 于 
如 何 实现 给 定 的 方法 ， 却 忽略 了 有 关 算 法 设计 的 探究 或 者 实现 细节 的 解释 。 虽 然 在 像 Distill 这 
样 的 网 站 和 某 些 博客 上 出 现 了 一 些 有 关 算 法 设计 和 实现 细节 的 讨论 ， 但 它们 常常 缺少 示例 代 
码 ， 并 通常 仅 禾 盖 深度 学 习 的 一 小 部 分 。 


男 外 ， 我 们 欣喜 地 看 到 了 一 些 有 关 深 度 学 习 的 教科 书 不 断 问 世 ， 其 中 最 著名 的 要 数 
Goodfellow, Bengio 和 Courville 的 《深度 学 习 》。 该 书 梳理 了 深度 学 习 背 后 的 众多 概念 与 方法 ， 
是 一 本 极为 优秀 的 教材 。 然 而 ， 这 类 资源 并 没有 将 概念 摘 述 与 实际 代码 相 结合 ， 以 至 于 有 时 会 
令 读 者 对 如 何 实 现 它们 感到 毫 无 头绪 。 除 了 这 些 以 外 ， 商 业 课 程 提 供 者 们 虽然 制作 了 众多 的 优 
质 资源 ， 但 它们 的 付费 门槛 令 不 少 用 户 望 而 生长 。 


正 因为 这 样 ， 深 度 学 习 用 户 ， 尤 其 是 初学 者 ， 往 往 不 得 不 参考 来 源 不 同 的 多 种 资料 。 例 
如 ， 通 过 教科 书 或 者 论文 来 掌握 算法 及 相关 数学 知识 ， 阅 读 线 上 文档 学 习 深 度 学 习 框架 的 使 用 
方法 ， 然 后 寻找 感 兴趣 的 算法 在 这 个 框架 上 的 实现 ， 并 摸索 如 何 将 它 应 用 到 自己 的 项 目 中 去 。 
如 果 你 正 亲 身 经 历 这 一 过 程 ， 你 可 能 会 感到 痛苦 ， 不 同 来 源 的 资料 有 时 难以 相互 一 一 对 应 ， 即 
便 能 够 对 应 也 可 能 需要 花费 大 量 的 精力 。 例 如 ， 我 们 需要 将 某 篇 论文 公式 中 的 数学 变量 与 某 段 
网 上 实现 中 的 程序 变量 一 一 对 应 ， 并 在 代码 中 找到 论文 可 能 没 交代 清楚 的 实现 细节 ， 甚 至 要 为 
运行 不 同 的 代码 安装 不 同 的 运行 环境 。 
针对 以 上 存在 的 痛 点 ， 我 们 正在 着 手 创建 一 个 为 实现 以 下 目标 的 统一 资源 : 


。 所 有 人 均 可 在 网 上 免费 获取 ; 
。 提供 足够 的 技术 深度 ， 从 而 帮助 读者 实际 成 为 深度 学 习 应 用 科学 家 一 一 既 理 解数 学 原 
理 ， 又 能 够 实现 并 不 断 改进 方法 ; 
。 包含 可 运行 的 代码 ， 为 读者 展示 如 何在 实际 中 解决 问题 ， 这 样 不 仅 直 接 将 数学 公式 对 
应 成 实际 代码 ， 而 且 可 以 修改 代码 、 观 察 结果 并 及 时 获取 经 验 ; 
。 人 允许 我 们 和 整个 社区 不 断 快速 迭代 内 容 ， 从 而 紧 跟 仍 在 高 速 发 展 的 深度 学 习 领 域 ， 
© 由 包含 有 关 技 术 细 节 问 答 的 论坛 作为 补充 ， 使 大 家 可 以 相互 答疑 并 交换 经 验 。 
这 些 目 标 往往 互 有 冲突 : 公式 、 定 理 和 引用 最 容易 通过 LaTeX 进行 管理 和 展示 ， 代 码 目 
然 应 该 用 简单 易 懂 的 Python 描述 ， 而 网 页 本 身 应 该 是 一 扒 HTML 及 配套 的 CSS 和 JavaScript. 
此 外 ， 我 们 希望 这 个 资源 可 以 作为 可 执行 代码 、 实 体 书 以 及 网 站 。 然 而 ， 目 前 并 没有 任何 工具 


可 以 完美 地 满足 以 上 所 有 需求 。 


因此 ， 我 们 不 得 不 自己 来 集成 这 样 的 一 个 工作 流 。 我 们 决定 在 GitHub 上 分 享 源 代码 并 人 允许 
提交 编辑 ， 通 过 Jupyter 记事 本 来 整合 代码 、 公 式 、 文 本 、 图 片 等 ， 使 用 Sphinx 作为 泻 染 引擎 
来 生成 不 同 格式 的 输出 ， 并 使 用 Discourse 作为 论坛 。 虽 然 我 们 的 系统 尚未 完善 ， 但 这 些 选 择 
在 互 有 冲突 的 目标 之 间 取 得 了 较 好 的 折 中 。 这 很 可 能 是 使 用 这 种 集成 工作 流 发 布 的 第 一 本 书 。 


从 在 线 课 程 到 纸 质 书 


本 书 的 两 位 中 国 作 者 曾 每 周末 在 线 免 费 讲 授 “ 动 手 学 深度 学 习 ” 系 列 课 程 。 课 程 的 讲义 自 
然 成 为 了 本 书 内 容 的 蓝本 。 这 个 课程 持续 了 5 个 月 ， 其 间 近 3 000 名 同学 参与 了 讨论 ， 并 贡献 
了 5 000 多 个 有 价值 的 讨论 ， 特 别 是 其 中 几 个 参加 比赛 的 练习 很 受 欢迎 。 这 个 课程 的 受 欢迎 程 
度 出 乎 我 们 的 意料 。 尽 管 我 们 将 课件 和 课程 视频 都 公开 在 了 网 上 ， 但 我 们 同时 觉得 出 版 成 纸 质 
书 也 许 能 让 更 多 喜爱 阅读 的 读者 受益 。 因 此 ， 我 们 委托 人 民 邮 电 出 版 社 来 出 版 这 本 书 。 


从 蔓 本 到 成 书 花 费 了 更 多 的 时 间 。 我 们 对 涉及 的 所 有 技术 点 补充 了 背景 介绍 ， 并 使 用 了 更 
加 严谨 的 写作 风格 ， 还 对 版 式 和 示意 图 做 了 大 量 修改 。 书 中 所 有 的 代码 执行 结果 都 是 自动 生成 
的 ， 任 何 改 动 都 会 触发 对 书 中 每 一 段 代 码 的 测试 ， 以 保证 读者 在 动手 实践 时 能 复 现 结果 。 


我 们 的 初 囊 是 让 更 多 人 更 容易 地 使 用 深度 学 习 。 为 了 让 大 家 能 够 便利 地 获取 这 些 资 源 ， 我 们 
保留 了 免费 的 网 站 内 容 ， 并 且 通 过 不 收取 稿费 的 方式 来 降低 纸 质 书 的 价格 ， 使 更 多 人 有 能 力 购买 。 


致谢 


我 们 无 比 感谢 本 书 的 中 英文 版 稿件 贡献 者 和 论坛 用 户 。 他 们 帮助 增添 或 改进 了 书 中 内 容 并 
提供 了 有 价值 的 反馈 。 特 别 地 ， 我 们 要 感谢 每 一 位 为 这 本 中 文 版 开源 书 提交 内 容 改动 的 贡献 
Ho KERMAN GitHub 用 户 名 或 姓名 是 《排名 不 分 先后 ): 许 臻 中、 邓 杨 、 惟 永明 、Aaron 
Sun, ROAM. aca. AKZ, £m, ERG. Chaitanya Prakash Bapat、 金 杰 、 赵 小 华 、 戴 
作 齐 、 刘 捷 、 张 建 浩 、 梓 善 、 唐 佐 林 、DHRUV536、 丁 海 、 郭 晶 博 、 段 弘 、 杨 英明 、 林 海滨 、 
wos. Fi, A, BBR. SKS. GR. Kangel Zenn, Richard CUI、 郭 云 鹏 、hank123456、 
金 显 、hardftish82、 何 通 、 高 剑 伟 、 王 海龙 、htoooth、hufuyu、Kun Hu、 刘 俊 朋 、 沈 海 晨 、 
RAR. REP, F ah. jigirer, HE, BAR. PSR. ER, BO. HAR. ERR, 
Leonard Lausen, 5k iH. MBF. linbojin, lingss0918. MAKE. XIE. RMB. BE. GAA, 
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pe. AGN. ERE, EME. E. wangzhe258369. ERS, AA. Rii E wudayo, 
tro. AUR. IE. WEE xR. ASU. EE. HOCH. ERA, Sie Kk. OM 
轩 、 吴 勇 、 杨 培 文 、 余 峰 、Peng Yu, ENA EFA ibi KER, XZE, KA KIA 
陈 志 、 周 航 、 张 帜 、 周 远 、 汪 汇 泽 、 谢 乘 胜 、aitehappiness、 张 满 冯 、 孙 徐 、 林 健 、 董 进 、 陈 
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4。 前 


FHN MARA PEIR, KR, FIAR bower, WFR ER ZEE ERU XE. 
谢谢 你 们 帮忙 改进 这 本 书 。 

本 书 的 初稿 在 中 国 科 学 技术 大 学 、 上 海 财 经 大 学 的 “深度 学 习 ” 课 程 ， 以 及 浙江 大 学 的 
“ 物 联 网 与 信息 处 理 ” 课 程 和 和 上海 交通 大 学 的 “面向 视觉 识别 的 卷 积 神经 网 络 ” 课 程 中 被 用 
于 教学 。 我 们 在 此 感谢 这 些 课 程 的 师 生 ， 特 别 是 连 德 富 教授 、 王 智 教授 和 罗 家 佳 教授 ， 感 谢 
他 们 对 改进 本 书 提供 的 宝贵 意见 。 


此 外 ， 我 们 感谢 Amazon Web Services， 特 别 是 Swami Sivasubramanian, Raju Gulabani、 
Charlie Bell 和 Andrew Jassy 在 我 们 撰写 本 书 时 给 予 的 慷慨 支持 。 如 果 没 有 可 用 的 时 间 、 资 源 
以 及 来 自 同 事 们 的 讨论 和 鼓励 ， 就 没有 这 本 书 的 项 目 。 我 们 还 要 感谢 Apache MXNet 团队 实现 
了 很 多 本 书 所 使 用 的 特性 。 男 外 ， 经 过 同事 们 的 校勘 ， 本 书 的 质量 得 到 了 极 大 的 提升 。 在 此 我 
们 一 一 列 出 章节 和 校勘 人 ， 以 表示 我 们 由 于 的 感谢 引言 的 校勘 人 为 金 蜂 ， 预 备 知识 的 校 勤 人 
为 吴 俊 ， 深 度 学 习 基 础 的 校勘 人 为 张 航 、 王 晨光 、 林 海滨 ， 深 度 学 习 计 算 的 校勘 人 为 查 戌 ， 卷 
积 神经 网 络 的 校勘 人 为 张 帜 、 何 通 ， 循 环 神经 网 络 的 校 勤 人 为 查 展 ， 优 化 算法 的 校勘 人 为 郑 
帅 ， 计 算 性 能 的 校勘 人 为 郑 达 、 吴 俊 ， 计 算 机 视觉 的 校勘 人 为 解 滩 源 、 张 帜 、 何 通 、 张 航 ， 目 
然 语言 处 理 的 校勘 人 为 王 晨 光 ， 附 录 的 校 勤 人 为 金 显 。 


感谢 将 门 创 投 ， 特 别 是 王 慧 、 高 欣欣 、 第 铭 融和 上 和 白玉 ， 为 本 书 的 两 位 中 国 作者 讲授 “ 动 
手 学 深度 学 习 ” 系 列 课程 提供 了 平台 。 感 谢 所 有 参与 这 一 系列 课程 的 数 千 名 同学 们 。 感 谢 
Amazon Web Services 中 国 团队 的 同事 们 ， 特 别 是 费 展 宏和 王 晨 对 作者 的 支持 与 荆 励 。 感 谢 本 
书 论坛 的 3 位 版 主 : 王 攀 、 夏 鲁 物 和 杨 培 文 。 他 们 牺牲 了 自己 宝贵 的 休息 时 间 来 回复 大 家 的 提 
问 。 感 谢 人 民 邮 电 出 版 社 的 杨 海 玲 编 辑 为 我 们 在 本 书 的 出 版 过 程 中 提供 的 各 种 帮助 。 


最 后 ， 我 们 要 感谢 我 们 的 家 人 。 谢 谢 你 们 一 直 陪 伴 着 我 们 。 


教 季 和 资源、 计算 资源 和 反馈 


本 书 的 英文 版 Dive into Deep Learning 是 加 州 大 学 伯克利 分 校 2019 年 春 学 期 “Introduction 
to Deep Leaming”( 深 度 学 习 导 论 ) 课程 的 教材 。 截 至 2019 年 春 学 期 ， 本 书 中 的 内 容 已 被 全 球 
15 所 知名 大 学 用 于 教学 。 本 书 的 学 习 社 区 、 免 费 教 学 资源 《这 件 、 教 学 视频 、 更 多 习题 等 )， 以 
及 用 于 本 书 学 习 或 教学 的 免费 计算 资源 《〈 仅 限 学 生 和 老师 ) 的 申请 方法 在 本 书 网 站 https://zh.d21.ai 
上 有 发布。 诚然 ， 将 算法 、 公 式 、 图 片 、 代 码 和 样 例 统一 进 一 本 适合 阅读 的 书 ， 并 以 具有 交互 式 
体验 的 Jupyter 记事 本 文件 的 形式 提供 给 读者 ， 是 对 我 们 的 极 大 挑战 。 书 中 难免 有 很 多 朴 忽 的 地 
方 ， 敬 请 原 访 ， 并 和 硕 望 读者 能 通过 每 一 节 后 面 的 二 维 码 向 我 们 反馈 阅读 本 书 过 程 中 发 现 的 问题 。 


结尾 处 ， 附 上 陆游 的 一 句 诗 作为 勉励 : 
“ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 躬 行 。” 
阿 斯 顿 - 张 、 李 沐 、 扎 卡 里 . C. 立顿 、 亚 历 山 大 .本 斯 莫 拉 
2019 年 5 月 





本 书 将 全 面 介 绍 深度 学 习 从 模型 构造 到 模型 训练 的 方方面面 ， 以 及 它们 在 计算 机 视觉 和 自 
然 语 言 处 理 中 的 应 用 。 我 们 不 仅 将 阐述 算法 原理 ， 还 将 基于 Apache MXNet 对 算法 进行 实现 ， 并 
实际 运行 它们 。 本 书 的 每 一 节 都 是 一 个 Jupyter 记事 本 。 它 将 文字 、 公 式 、 图 像 、 代 码 和 运行 结 
果 结 合 在 了 一 起 。 读 者 不 但 能 直接 阅读 它们 ， 而 且 可 以 运行 它们 以 获得 交互 式 的 学 习 体验 。 


面向 的 读者 


本 书面 向 希望 了 解 深度 学 习 ， 特 别 是 对 实际 使 用 深度 学 习 感 兴趣 的 大 学 生 、 工 程 师 和 研究 
人 员 。 本 书 并 不 要 求 读者 有 任何 深度 学 习 或 者 机 器 学 习 的 背景 知识 ， 我 们 将 从 头 开 始 解释 每 一 
个 概念 。 虽 然 深 度 学 习 技术 与 应 用 的 阐述 涉及 了 数学 和 编程 ， 但 读者 只 需 了 解 基础 的 数学 和 编 
程 ， 如 基础 的 线性 代数 、 微 分 和 概率 ， 以 及 基本 的 Python 编程 知识 。 在 附录 A 中 我 们 提供 了 本 
书 涉及 的 主要 数学 知识 供 读者 参考 。 如 果 读 者 之 前 没有 接触 过 Python， 可 以 参考 其 中 文教 程 或 英 
文教 程 。 当 然 ， 如 果 读 者 只 对 本 书 中 的 数学 部 分 感 兴趣 ， 可 以 忽略 掉 编 程 部 分 ， 反 之 亦 然 。 


内 容 和 结构 


本 书 内 容 大 体 可 以 分 为 3 个 部 分 。 


。 第 一 部 分 (第 1 章 ~ 第 3 章 ) 涵盖 预备 工作 和 基础 知识 。 第 1 章 介绍 深度 学 习 的 背景 。 
第 2 章 提 供 动手 学 深度 学 习 所 需要 的 预备 知识 ， 例 如 ， 如 何 获取 并 运行 本 书 中 的 代 
码 。 第 3 章 包括 深度 学 习 最 基础 的 概念 和 技术 ， 如 多 层 感 知 机 和 模型 正则 化 。 如 果 读 
者 时 间 有 限 ， 并 且 只 想 了 解 深度 学 习 最 基础 的 概念 和 技术 ， 那 么 只 需 阅 读 第 一 部 分 。 

。 第 二 部 分 (第 4 章 ~ 第 6 章 ) 关注 现代 深度 学 习 技 术 。 第 4 章 描述 深度 学 习 计算 的 各 
个 重要 组 成 部 分 ， 并 为 实现 后 续 更 复杂 的 模型 打下 基础 。 第 5 章 解 释 近 年 来 令 深 度 学 
习 在 计算 机 视觉 领域 大 获 成 功 的 卷 积 神经 网 络 。 第 6 章 阐述 近年 来 常用 于 处 理 序列 数 
据 的 循环 神经 网 络 。 阅 读 第 二 部 分 有 助 于 掌握 现代 深度 学 习 技术 。 

。 第 三 部 分 〈 第 7 章 ~ 第 10 章 ) 讨论 计算 性 能 和 应 用 。 第 7 章 评价 各 种 用 来 训练 深度 
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学 习 模 型 的 优化 算法 。 第 8 章 检 验 影响 深度 学 习 计算 性 能 的 几 个 重要 因 系 。 第 9 章 和 
第 10 章 分 别 列举 深度 学 习 在 计算 机 视觉 和 自然 语言 处 理 中 的 重要 应 用 。 这 部 分 内 容 
读者 可 根据 兴趣 选择 阅读 。 

图 0-1 描绘 了 本 书 的 结构 ， 其 中 由 A 章 指 向 B 章 的 箭头 表明 A 章 的 知识 有 助 于 理解 B 章 


的 内 容 。 
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0-1 本 书 的 结构 


代码 


本 书 的 一 大 特点 是 每 一 节 的 代码 都 是 可 以 运行 的 。 读 者 可 以 改动 代码 后 重新 运行 ， 并 通过 运行 
结果 进一步 理解 改动 所 带 来 的 影响 。 我 们 认为 ， 这 种 交互 式 的 学 习 体验 对 于 学 习 深 度 学 习 非 常 重要 。 
因为 深度 学 习 目 前 并 没有 很 好 的 理论 解释 框架 ， 很 多 论断 只 可 意 会 。 文 字 解 释 在 这 时 候 可 能 比 
较 苑 白 无 力 ， 而 且 不 足以 覆盖 所 有 细节 。 读 者 需要 不 断 改动 代 码 、 观 察 运 行 结 果 并 总 结 经 验 ， 
从 而 逐步 领悟 和 掌握 深度 学 习 。 

本 书 的 代码 基于 Apache MXNet 实现 。MXNet 是 一 个 开源 的 深度 学 习 框 架 。 它 是 AWS( 亚 
马 逊 云 计 算 服 务 ) 首选 的 深度 学 习 框 架 ， 也 被 众多 学 校 和 公司 使 用 。 为 了 避免 重复 描述 ， 我 们 
将 本 书 中 多 次 使 用 的 函数 和 类 封装 在 d2Lzh 包 中 (〈 包 的 名 称 源 于 本 书 的 网 站 地 址 )。 这 些 函 数 
和 类 的 定义 的 所 在 章节 已 在 附录 下 里 列 出 。 但 是 ， 因 为 深度 学 习 发 展 极为 迅速 ， 未 来 版 本 的 
MXNet 可 能 会 造成 书 中 部 分 代码 无 法 正常 运行 。 过 到 相关 问题 可 参考 2.1 节 来 更 新 代码 和 运行 
环境 。 如 果 读 者 想 了 解 运行 本 书 代 码 所 依赖 的 MXNet 和 d2Lzh 包 的 版 本 号 ， 也 可 参考 2.1 节 。 


我 们 提供 代码 的 主要 目的 在 于 增加 一 个 在 文字 、 图 像 和 公式 外 的 学 习 深 度 学 习 算 法 的 
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方式 ， 以 及 一 个 便于 理解 各 个 算法 在 真实 数据 上 的 实际 效果 的 交互 式 环 境 。 书 中 只 使 用 了 
MXNet 的 ndarray, autograd, gluon 等 模块 或 包 的 基础 功能 ， 从 而 使 读者 尽 可 能 了 解 深 度 
学 习 算法 的 实现 细节 。 即 便 读 者 在 研究 和 工作 中 使 用 的 是 其 他 深度 学 习 框 架 ， 书 中 的 代码 也 有 
助 于 读者 更 好 地 理解 和 应 用 深度 学 习 算 法 。 


讨论 区 


本 书 的 网 站 是 https:/zh.d21.ai， 上 面 提 供 了 学 习 社 区 地 址 和 GitHub 开源 地 址 。 如 果 读 者 对 
书 中 某 节 内 容 有 疑惑 ， 可 扫 一 扫 该 节 开 始 的 二 维 码 参 与 该 节 内 容 的 讨论 。 值 得 一 提 的 是 ， 在 有 
K Kaggle 比赛 章节 的 讨论 区 中 ， 众 多 社区 成 员 提 供 了 丰富 的 高 水 平方 法 ， 我 们 强烈 推荐 给 大 
家 。 希 望 诸 位 积极 参与 学 习 社区 中 的 讨论 ， 并 相信 大 家 一 定 会 有 所 收获 。 本 书 作 者 和 MXNet 
开发 人 员 也 时 常 参与 社区 中 的 讨论 。 





本 书 由 异步 社区 出 品 ， 社 区 Chttps://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服务 。 


配套 资源 


本 书 提供 如 下 资源 : 
。 本 书 源 代码 ; 
© 书 中 彩 图 文件 。 


要 获得 以 上 配套 资源 ， 请 在 异步 社区 本 书页 面 中 点 击 基于 ， 跳 转 到 下 载 界面 ， 按 提示 
进行 操作 即 可 。 注 意 ， 为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相关 提示 ， 要 求 输入 提取 码 进行 
验证 。 


如 果 您 是 教师 ， 和 希望 获得 教学 配套 资源 ， 请 在 社区 本 书页 面 中 直接 联系 本 书 的 责任 编辑 。 





提交 勘误 


作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 朴 漏 。 欢 迎 您 将 发 现 的 问 
题 反 馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 


当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 点 击 “ 提 交 勘 误 ”， 输 
入 勘误 信息 ， 点 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 
接受 后 ， 您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 
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扫 码 关注 本 书 
扫描 下 方 二 维 码 ， 您 将 会 在 异步 社区 微 信 服务 号 中 看 到 本 书信 息 及 相关 的 服务 提示 。 
| 
bee by al 
ep ican 
| ae jo i 
与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn. 


如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 名 ， 
以 便 我 们 更 高 效 地 做 出 反馈 。 


如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 发 邮 
件 给 我 们 ;有意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提交 投稿 (直接 访问 www.epubit.com/ 
selfpublish/submission Bl FJ )。 


如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 以 发 
邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 部 或 部 
分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 用 邮件 给 我 们 。 您 的 这 一 举动 是 对 作者 权 
益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


天 于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致 为 于 出 版 精品 IT 技术 图 书 和 相 
关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社 区 创办 于 2015 年 8 月， 提供 大 量 精品 IT 
技术 图 书 和 电子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 https:// 


www.epubit.com. 


“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 ， 依 托 于 人 民 邮 
电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 ， 相 关 图 书 在 封面 上 印 有 异步 图 书 的 





异步 社区 微 信 服务 号 
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OR AY HE AS Re el aE, FPP AC — Pa aK REP TAIN PR HY Re EE Se F 扫 码 直达 讨论 区 
JEJAI le 

TR BE] BM DL tie OJ AR ai HR, JS EPR R'E TT T E 
PHF —A THE. SEP LE, ASIEN, ARDIE H T fa 
要 深度 学 习 或 者 是 更 广义 上 的 人 工 智 能 技术 。 例 如 ， 如 果 我 们 要 为 一 台 微 
波 炉 编写 一 个 用 户 界 面 ， 只 需要 一 点 儿 工 夫 我 们 便 能 设计 出 十 几 个 按钮 以 
及 一 系列 能 精确 摘 述 微波 炉 在 各 种 情况 下 的 表现 的 规则 ， 再 比如 ， 假 设 我 
们 要 编写 一 个 电子 邮件 客户 端 。 这样 的 程序 比 微波 炉 要 复杂 一 些 ， 但 我 
们 还 是 可 以 沉 下 心 来 一 步 一 步 思 考 ; 客户 端的 用 户 界 面 将 需要 几 个 输入 框 来 接受 收 件 人 、 主 
题 、 邮 件 正 文 等 ， 程 序 将 监听 键盘 输入 并 写 入 一 个 缓冲 区 ， 然 后 将 它们 显示 在 相应 的 输入 框 
中 。 当 用 户 点 击 “ 发 达 ” 按 钮 时 ， 我 们 需要 检查 收 件 人 邮箱 地 址 的 格式 是 否 正确 ， 并 检查 邮 
件 主题 是 售 为 空 ， 或 在 主题 为 空 时 警告 用 户 ， 而 后 用 相应 的 协议 传送 邮件 。 


值得 注意 的 是 ， 在 以 上 两 个 例子 中 ， 我 们 都 不 需要 收集 真实 世界 中 的 数据 ， 也 不 需要 系 
统 地 提取 这 些 数据 的 特征 。 只 要 有 充足 的 时 间 ， 我 们 的 常识 与 编程 技巧 已 经 足够 让 我 们 完成 
任务 。 


与 此 同时 ， 我 们 很 容易 就 能 找到 一 些 连 世界 上 最 好 的 程序 员 也 无 法 仅 用 编程 技巧 解决 的 简 
时 问题 。 例 如 ， 假 设 我 们 想 要 编写 一 个 判定 一 张 图像 中 有 没有 猫 的 程序 。 这 件 事 听 起 来 好 像 很 
简单 ， 对 不 对 ? 程序 只 需要 对 每 张 输入 图 像 输 出 “ 真 ”( 表 示 有 猫 ) 或 者 “ 假 ”( 表 示 无 猫 ) 即 可 。 
但 令 人 惊讶 的 是 ， 即 使 是 世界 上 最 优秀 的 计算 机 科学 家 和 程序 员 也 不 懂 如 何 编 写 这 样 的 程序 。 


我 们 该 从 哪里 入 手 呢 ?我 们 先进 一 步 简化 这 个 问题 ， 硅 假设 所 有 图 像 的 高 和 宽 都 是 同样 的 
400 像 系 大 小 ， 一 个 像素 由 红 绿 昌 3 个 值 构 成 ， 那 么 一 张 图 像 就 由 近 50 万 个 数值 表示 。 那 么 
哪些 数值 隐藏 看 我 们 需要 的 信息 呢 ? 是 所 有 数值 的 平均 数 ， 还 是 4 个 角 的 数值 ， 抑 或 是 图 像 中 
的 未 一 个 特别 的 点? 事实 上 ， 要 想 解读 图 像 中 的 内 容 ， 需 要 寻找 仅仅 在 结合 成 二 上 万 的 数值 时 
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入 手 来 寻找 一 个 解决 方案 。 事 实 上 ， 这 也 是 目前 的 机 器 学 习 和 深度 学 习 应 用 共同 的 核心 思想 ; 
我 们 可 以 称 其 为 “用 数据 编程 ”。 与 其 村 坐 在 房间 里 思考 怎么 设计 一 个 识别 猫 的 程序 ， 不 如 利 
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用 人 类 肉眼 在 图 像 中 识别 猫 的 能 力 。 我 们 可 以 收集 一 些 已 知 包含 猫 与 不 包含 猫 的 真实 图 像 ， 然 
后 我 们 的 目标 就 转化 成 如 何 从 这 些 图 像 入 手 得 到 一 个 可 以 推断 出 图 像 中 是 否 有 猫 的 图 数 。 这 个 
函数 的 形式 通常 通过 我 们 的 知识 来 针对 特定 问题 选 定 。 例 如 ， 我 们 使 用 一 个 二 次 函数 来 判断 图 
像 中 是 否 有 猫 ， 但 是 像 二 次 函数 系数 值 这 样 的 函数 参数 的 具体 值 则 是 通过 数据 来 确定 。 


通俗 来 说 ， 机 器 学 习 是 一 门 讨论 各 式 各 样 的 适用 于 不 同 问题 的 函数 形式 ， 以 及 如 何 使 用 数 
据 来 有 效 地 获取 函数 参数 具体 值 的 学 科 。 深 度 学 习 是 指 机 器 学 习 中 的 一 类 函数 ， 它 们 的 形式 通 
第 为 多 层 神经 网 络 。 近 年 来 ， 仰 仗 着 大 数据 集 和 强大 的 硬件 ， 深 度 学 习 已 逐渐 成 为 处 理 图 像 、 
文本 语 料 和 声音 信号 等 复杂 高 维度 数据 的 主要 方法 。 


我 们 现在 正 处 于 一 个 程序 设计 得 到 深度 学 习 的 帮助 越 来 越 多 的 时 代 。 这 可 以 说 是 计算 机 科 
学 历史 上 的 一 个 分 水 岭 。 举 个 例子 ， 深 度 学 习 已 经 在 你 的 手机 里 :拼写 校正 、 语 音 识别 、 认 出 
社交 媒体 照片 里 的 好 友 们 等 。 得 益 于 优秀 的 算法 、 快 速 而 廉价 的 算 力 、 前 所 未 有 的 大 量 数据 以 
及 强大 的 软件 工具 ， 如 今 大 多 数 软 件 工 程 师 都 有 能 力 建 立 复杂 的 模型 来 解决 10 年 前 连 最 优秀 
的 科学 家 都 觉得 环 手 的 问题 。 


本 书 和 希望 能 帮助 读者 进入 深度 学 习 的 浪潮 中 。 我 们 希望 结合 数学 、 代 码 和 样 例 让 深度 学 习 
变 得 触手 可 及 。 本 书 不 要 求 读 者 具有 高 深 的 数学 或 编程 背景 ， 我 们 将 随 着 章节 的 发 展 逐 一 解释 
所 需要 的 知识 。 更 值得 一 提 的 是 ， 本 书 的 每 一 节 都 是 一 个 可 以 独立 运行 的 Jupyter 记事 本 。 读 
者 可 以 从 网 上 获得 这 些 记事 本 ， 并 且 可 以 在 个 人 电脑 或 云端 服务 器 上 执行 它们 。 这 样 读者 就 可 
以 随意 改动 书 中 的 代码 并 得 到 及 时 反馈 。 我 们 希望 本 书 能 帮助 和 启发 新 一 代 的 程序 员 、 创 业 
者 、 统 计 学 家 、 生 物 学 家 ， 以 及 所 有 对 深度 学 习 感 兴趣 的 人 。 


1.1 起 源 


虽然 深度 学 习 似 乎 是 最 近 几 年 刚 兴起 的 名 词 ， 但 它 所 基于 的 神经 网 络 模型 和 用 数据 编程 的 
核心 思想 已 经 被 研究 了 数 百 年 。 自 古 以 来 ， 人 类 就 一 直 淘 望 能 从 数据 中 分 析出 预知 未 来 的 窍 
门 。 实 际 上 ， 数 据 分析 正 是 大 部 分 自然 科学 的 本 质 ， 我 们 希望 从 日 常 的 观测 中 提取 规则 ， 并 找 
寻 不 确定 性 。 


早 在 17 世纪 ， 雅 各 比 : 伯 努 利 〈165$ 一 1705) 提出 了 描述 只 有 两 种 结果 的 随机 过 程 〈 如 
抛掷 一 枚 硬币 ) 的 伯 努 利 分 布 。 大 约 一 个 世纪 之 后 ， 卡 尔 : 弗 里 德里 希 : 高 斯 (1777 一 1855 ) 
发 明了 今日 仍 广 泛 用 在 从 保险 计算 到 医学 诊断 等 领域 的 最 小 二 乘法 。 概 率 论 、 统 计 学 和 模式 识 
别 等 工具 帮助 自然 科学 的 工作 者 从 数据 回归 到 自然 定律 ， 从 而 发 现 了 如 欧姆 定律 (描述 电阻 两 
端 电 压 和 流 经 电阻 电流 关系 的 定律 ) 这 类 可 以 用 线性 模型 完美 表达 的 一 系列 自然 法 则 。 

即使 是 在 中 世纪 ， 数 学 家 也 热衷 于 利用 统计 学 来 做 出 估计 。 例 如 ， 在 雅 各 比 * 科 贝尔 
(1460—1533) 的 几何 书 中 记载 了 使 用 16 名 男子 的 平均 脚 长 来 估计 男子 的 平均 脚 长 。 


如 图 1-1 所 示 ， 在 这 个 研究 中 ，16 位 成 年 男子 被 要 求 在 离开 教堂 时 站 成 一 排 并 把 脚 贴 在 一 
起 ， 而 后 他 们 脚 的 总 长 度 除 以 16 得 到 了 一 个 估计 : 这 个 数字 大 约 相当 于 今日 的 0.3 米 。 这 个 
算法 之 后 又 被 改进 ， 以 应 对 特异 形状 的 脚 一 一 最 长 和 最 短 的 脚 不 计 入 ， 只 对 剩余 的 脚 长 取 平 均 
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图 1-1 在 中 世纪 ，16 名 男子 的 平均 脚 长 被 用 来 估计 男子 的 平均 脚 长 


现代 统计 学 在 20 世纪 的 真正 腾飞 要 归功 于 数据 的 收集 和 发 布 。 统 计 学 巨匠 之 一 罗 纳 德 . 
HA 1890—1962) 对 统计 学 理论 和 统计 学 在 基因 学 中 的 应 用 功 不 可 没 。 他 发 明 的 许多 算法 和 
公式 ， 例 如 线性 判别 分 析 和 费 雪 信 息 ， 仍 经 常 被 使 用 。 即 使 是 他 在 1936 年 发 布 的 Iris 数据 集 ， 
仍然 偶尔 被 用 于 演示 机 器 学 习 算法 。 


fe: 香农 〈1916 一 2001) 的 信息 论 以 及 阿兰 . 图 灵 〈1912 一 19$4) 的 计算 理论 也 对 机 
锋 学 习 有 深远 影 啊 。 图 灵 在 他 著名 的 论文 《计算 机 器 与 智能 》 中 提出 了 “机 器 可 以 思考 吗 ? ” 
这 样 一 个 问题 “。 在 他 描述 的 “图 灵 测 试 ” 中 ， 如 果 一 个 人 在 使 用 文本 交互 时 不 能 区 分 他 的 
对 话 对 象 到 撒 是 人 类 还 是 机 器 的 话 ， 那 么 即 可 认为 这 人 台 机 器 是 有 智能 的 。 时 至 今日 ， 智 能 机 器 
的 发 展 可 谓 日 新 月 异 。 


另 一 个 对 深度 学 习 有 重大 影响 的 领域 是 神经 科学 与 心理 学 。 既 然 人 类 显然 能 够 展现 出 智 
能 ， 那 么 对 于 解释 并 逆 癌 工程 人 类 智能 机 理 的 探究 也 在 情理 之 中 。 最 早 的 算法 之 一 是 由 唐 纳 
fa- iAH (1904—1985) 正式 提出 的 。 在 他 开创 性 的 著作 《行为 的 组 织 》 中 ， 他 提出 神经 是 通 
过 正 向 强化 来 学 习 的 ， 即 赫 布 理论 “…。 赫 布 理论 是 感知 机 学 习 算法 的 原型 ， 并 成 为 支撑 今日 
深度 学 习 的 随机 梯度 下 降 算 法 的 基石 : 强化 合意 的 行为 、 惩 罚 不 合意 的 行为 ， 最 终 获 得 优良 的 
神经 网 络 参 数 。 


来 源 于 生物 学 的 灵感 是 神经 网 络 名 字 的 由 来 。 这 类 研究 者 可 以 追溯 到 一 个 多 世纪 前 的 亚 历 
山大 : DUR 1818—1903) 和 查尔斯 : 斯 科 特 : 谢 灵 顿 (1857 一 1952)。 研 究 者 们 尝试 组 建 模仿 
神经 元 互动 的 计算 电路 。 随 着 时 间 流 逝 ， 神 经 网 络 的 生物 学 解释 被 稀释 ， 但 仍 保 留 了 这 个 名 
字 。 时 至 今日 ， 绝 大 多 数 神经 网 络 都 包含 以 下 的 核心 原则 。 


。 交 蔡 使 用 线性 处 理 单 元 与 非 线 性 处 理 单元 ， 它 们 经 常 被 称 为 “ 层 ”。 
。 使 用 链 式 法 则 《〈 即 反 回 传播 ) 来 更 新 网 络 的 参数 。 


在 最 初 的 快速 发 展 之 后 ， 自 约 1995 年 起 至 2005 年 ， 大 部 分 机 器 学 习 研 究 者 的 视线 从 神 
经 网 络 上 移 开 了 。 这 是 由 于 多 种 原因 。 首 先 ， 训 练 神经 网 络 需要 极 强 的 计算 力 。 尽 管 20 世纪 
末 内 存 已 经 足够 ， 计 算 力 却 不 够 充足 。 其 次 ， 当 时 使 用 的 数据 集 也 相对 小 得 多 。 费 雪 在 1936 
年 发 布 的 的 Iris 数据 集 仅 有 150 个 样本 ， 并 被 广泛 用 于 测试 算法 的 性 能 。 具 有 6 万 个 样本 的 
MNIST 数据 集 在 当时 已 经 被 认为 是 非常 庞大 了 了， 尽管 它 如 今 已 被 认为 是 典型 的 简单 数据 集 。 
由 于 数据 和 计算 力 的 稀缺 ， 从 经 验 上 来 说 ， 如 核 方法 、 决 策 树 和 概率 图 模型 等 统计 工具 更 优 。 
它们 不 像 神经 网 络 一 样 需要 长 时 间 的 训练 ， 并 且 在 强大 的 理论 保证 下 提供 可 以 预测 的 结果 。 
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便宜 的 计算 力 ， 尤 其 是 原本 为 电脑 游戏 设计 的 GPU 的 出 现 ， 前 面 描述 的 情况 改变 了 许多 。 一 
瞬间 ， 原 本 被 认为 不 可 能 的 算法 和 模型 变 得 触手 可 及 。 这 样 的 发 展 趋势 从 表 1-1 中 可 见 一 斑 。 


表 1-1 发 展 趋势 
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的 增长 。 这 样 的 趋势 使 得 统计 模型 可 以 在 优化 参数 上 投入 更 多 的 计算 力 ， 但 同时 需要 提高 存储 
的 利用 效率 ， 例 如 使 用 非 线性 处 理 单 元 。 这 也 相应 导致 了 机 器 学 习 和 统计 学 的 最 优选 择 从 广义 
线性 模型 及 核 方法 变化 为 深度 多 层 神 经 网 络 。 这 样 的 变化 正 是 诸如 多 层 感知 机 、 卷 积 神经 网 
络 、 长 短期 记忆 循环 神经 网 络 和 Q 学 习 等 深度 学 习 的 支柱 模型 在 过 去 10 年 从 坐 了 数 十 年 的 冷 
板 纤 上 站 起 来 被 “重新 发 现 ” 的 原因 。 


近年 来 在 统计 模型 、 应 用 和 算法 上 的 进展 常 被 拿 来 与 塞 武 纪 大 爆发 历史 上 物种 数量 大 煤 
发 的 一 个 时 期 ) 做 比较 。 但 这 些 进展 不 仅仅 是 因为 可 用 资源 变 多 了 而 让 我 们 得 以 用 新 瓶装 旧 
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酒 。 下 面 仅 列 出 了 近 10 年 来 深度 学 习 长 足 发 展 的 部 分 原因 。 


优秀 的 容量 控制 方法 ， 如 丢弃 法 ， 使 大 型 网 络 的 训练 不 再 受制 于 过 拟 合 (大 型 神经 网 
络 学 会 记忆 大 部 分 训练 数据 的 行为 ) "。 这 是 靠 在 整个 网 络 中 注入 噪声 而 达到 的 ， 如 
训练 时 随机 将 权重 替换 为 随机 的 数字 呈 。 
注意 力 机 制 解决 了 男 一 个 困扰 统计 学 超过 一 个 世纪 的 问题 ， 如 何在 不 增加 参数 的 情况 
下 扩展 一 个 系统 的 记忆 容量 和 复杂 度 。 注 意 力 机 制 使 用 了 一 个 可 学 习 的 指针 结构 来 构 
建 出 一 个 精妙 的 解决 方法 站。 也 就 是 说 ， 与 其 在 像 机 器 翻译 这 样 的 任务 中 记忆 整个 句 
子 ， 不 如 记忆 指向 翻译 的 中 间 状 态 的 指针 。 由 于 生成 译文 前 不 需要 再 存储 整 句 原文 的 
言 息 ， 这 样 的 结构 使 准确 翻译 长 句 变 得 可 能 。 
记忆 网 络 “ 和 神经 编码 器 - 解释 器 OP) 这 样 的 多 阶 设计 使 得 针对 推理 过 程 的 迭代 建 模 
方法 变 得 可 能 。 这 些 模型 允许 重复 修改 深度 网 络 的 内 部 状态 ， 这 样 就 能 模拟 出 推理 链 
条 上 的 各 个 步骤 ， 就 好 像 处理 器 在 计算 过 程 中 修改 内 存 一 样 。 
男 一 个 重大 发 展 是 生成 对 抗 网 络 的 发 明 ""。 传 统 上 ， 用 在 概率 分 布 估 计 和 生成 模型 
上 的 统计 方法 更 多 地 关注 于 找寻 正确 的 概率 分 布 ， 以 及 正确 的 采样 算法 。 生 成 对 抗 网 
络 的 天 键 创 新 在 于 将 采样 部 分 蔡 换 成 了 任意 的 含有 可 微分 参数 的 算法 。 这 些 参数 将 被 
训练 到 使 辨别 器 不 能 再 分 辨 真实 的 和 生成 的 样本 。 生 成 对 抗 网 络 可 使 用 任意 算法 来 生 
成 输出 的 这 一 特性 为 许多 技巧 打开 了 新 的 大 门 。 例 如 ， 生 成 奔跑 的 斑马 外 和 生成 名 
流 的 照片 ” 都 是 生成 对 抗 网 络 发 展 的 见证 。 
许多 情况 下 单 块 GPU 已 经 不 能 满足 在 大 型 数据 集 上 进行 训练 的 需要 。 过 去 10 年 内 我 
们 构建 分 布 式 并 行 训练 算法 的 能 力 已 经 有 了 极 大 的 提升 。 设 计 可 扩展 算法 的 最 大 瓶颈 
在 于 深度 学 习 优 化 算法 的 核心 : 随机 梯度 下 降 需 要 相对 更 小 的 批量 。 与 此 同时 ， 更 小 
的 批量 也 会 降低 GPU 的 效率 。 如 果 使 用 1 024 块 GPU， 每 块 GPU 的 批量 大 小 为 32 
个 样本 ， 那 么 单 步 训练 的 批量 大 小 将 是 32 000 个 以 上 。 近 年 来 的 工作 将 批量 大 小 增 
至 多 达 64 000 个 样 例 ， 并 把 在 ImageNet 数据 集 上 训练 ResNet-50 模型 的 时 间 降 到 了 
7 分钟。 与 之 相 比 ， 最 初 的 训练 时 间 需 要 以 天 来 计算 。 
并 行 计 算 的 能 力也 为 至 少 在 可 以 采用 模拟 情况 下 的 强化 学 习 的 发 展 贡献 了 力量 。 并 
行 计 算 帮 助 计 算 机 在 围棋 、 雅 达 利 游戏 、 星 际 争霸 和 物理 模拟 上 达到 了 超过 人 类 的 
水 准 。 
深度 学 习 框 架 也 在 传播 深度 学 习 思 想 的 过 程 中 扮演 了 重要 角色 。Caffe、Torch 和 
Theano 这 样 的 第 一 代 框 架 使 建 模 变 得 更 简单 。 许 多 开创 性 的 论文 都 用 到 了 这 些 框架 。 
如 今 它们 已 经 被 TensorFlow 经 常 是 以 高 层 API Keras 的 形式 被 使 用 );、CNTK、Caffe 2 
Wi Apache MXNet 所 取代 。 第 三 代 ， 即 命令 式 深 度 学 习 框架 ， 是 由 用 类 似 NumPy 的 
语法 来 定义 模型 的 Chainer 所 开创 的 。 这 样 的 思想 后 来 被 PyTorch 和 MXNet 的 Gluon 
API 采用 ， 后 者 也 正 是 本 书 用 来 教学 深度 学 习 的 工具 。 


系统 研究 者 负责 构建 更 好 的 工具 ， 统 计 学 家 建立 更 好 的 模型 。 这 样 的 分 工 使 工作 大 大 简 
化 。 举 例 来 说 ， 在 2014 年 时 ， 训 练 一 个 逻辑 回归 模型 曾 是 卡 内 基 梅 隆 大 学 布置 给 机 器 学 习 方 
加 的 新 入 学 博士 生 的 作业 问题 。 时 至 今日 ， 这 个 问题 只 需要 少 于 10 行 的 代码 便 可 以 完成 ， 普 
通 的 程序 员 都 可 以 做 到 。 


1.3 ”成功 案例 


长 期 以 来 机 器 学 习 总 能 完成 其 他 方法 难以 完成 的 目标 。 例 如 ， 自 20 世纪 90 年 代 起 ， 邮 件 
的 分 拣 就 开始 使 用 光学 字符 识别 。 实 际 上 这 正 是 知名 的 MNIST 和 USPS 手写 数字 数据 集 的 来 
源 。 机 器 学 习 也 是 电子 支付 系统 的 支柱 ， 可 以 用 于 读 取 银 行 支 票 、 进 行 授信 评分 以 及 防止 金融 
欺诈。 机 器 学 习 算法 在 网 络 上 被 用 来 提供 搜索 结果 、 个 性 化 推荐 和 网 页 排序 。 虽 然 长 期 处 于 公 
众 视野 之 外 ， 但 是 机 器 学 习 已 经 渗透 到 了 我 们 工作 和 生活 的 方方面面 。 直 到 近年 来 ， 在 此 前 认 
为 无 法 被 解决 的 问题 以 及 直接 关系 到 消费 者 的 问题 上 取得 突破 性 进展 后 ， 机 器 学 习 才 逐渐 变 成 
公众 的 焦点 。 下 列 进展 基本 归功 于 深度 学 习 。 


苹果 公司 的 Siri, WA Alexa 和 谷歌 助手 一 类 的 智能 助手 能 以 可 观 的 准确 率 回 答 
口头 提出 的 问题 ， 甚 至 包括 从 简单 的 开关 灯具 (对 残疾 群体 帮助 很 大 〉 到 提供 语音 天 
话 帮 助 。 智 能 助手 的 出 现 或 许可 以 作为 人 工 智能 开始 影响 我 们 生活 的 标志 。 

智能 助手 的 关键 是 需要 能 够 精确 识别 语音 ， 而 这 类 系统 在 某 些 应 用 上 的 精确 度 已 经 渐 
渐 增 长 到 可 以 与 人 类 比肩 ” 。 

物体 识别 也 经 历 了 漫长 的 发 展 过 程 。 在 2010 年 从 图 像 中 识别 出 物体 的 类 别 仍 是 一 
个 相当 有 挑战 性 的 任务 。 当 年 日 本 电气 、 伊 利 诺 伊 大 学 香槟 分 校 和 罗 格 斯 大 学 团队 
在 ImageNet 基准 测试 上 取得 了 28% 的 前 五 错误 率 。 到 2017 年 ， 这 个 数字 降低 到 了 
2.25%5-…。 研 究 人 员 在 鸟 类 识别 和 皮肤 癌 诊 断 上 ， 也 取得 了 同样 惊世骇俗 的 成 绩 。 
游戏 曾 被 认为 是 人 类 智能 最 后 的 堡垒 。 目 使 用 时 间 差 分 强化 学 习 玩 双 陆 棋 的 .TD- 
Gammon 开始 ， 算 法 和 算 力 的 发 展 催 生 了 一 系列 在 游戏 上 使 用 的 新 算法 。 与 双 陆 棋 不 
同 ， 国 际 象棋 有 更 复杂 的 状态 空间 和 更 多 的 可 选 动作 。“ 深 蓝 ” 用 大 量 的 并 行 、 专 用 
硬件 和 游戏 树 的 高 效 搜索 打败 了 加 里 : 卡 斯 帕 罗 夫 汪 。 围 棋 因 其 庞大 的 状态 空间 被 认 
为 是 更 难 的 游戏 ，AlphaGo 在 2016 年 用 结合 深度 学 习 与 蒙特 卡 洛 树 采 样 的 方法 达到 
了 人 类 水 准 外。 对 德州 扑克 游戏 而 言 ， 除 了 巨大 的 状态 空间 之 外 ， 更 大 的 挑战 是 游 
戏 的 信息 并 不 完全 可 见 ， 例 如 看 不 到 对 手 的 牌 。 而 “ 冷 扑 大 师 ” 用 高 效 的 策略 体系 超 
越 了 人 类 玩家 的 表现 “。 以 上 的 例子 都 体现 出 了 先进 的 算法 是 人 工 智能 在 游戏 上 的 表 
现 提 升 的 重要 原因 。 

机 器 学 习 进 步 的 男 一 个 标志 是 自动 驾驶 汽车 的 发 展 。 尽 管 距离 完全 的 自主 驾驶 还 有 很 
长 的 路 要 走 ， 但 诸如 Tesla, NVIDIA. MobilEye 和 Waymo 这 样 的 公司 发 布 的 具有 部 
分 自主 驾驶 功能 的 产品 展示 出 了 这 个 领域 巨大 的 进步 。 完 全 自主 驾驶 的 难点 在 于 它 需 
要 将 感知 、 思 考 和 规则 整合 在 同一 个 系统 中 。 目 前 ， 深 度 学 习 主 要 被 应 用 在 计算 机 视 
觉 的 部 分 ， 剩 余 的 部 分 还 是 需要 工程 师 们 的 大 量 调试 。 


以 上 列 出 的 仅仅 是 近年 来 深度 学 习 所 取得 的 成 果 的 冰山 一 角 。 机 器 人 学 、 物 流 管理 、 计 算 
生物 学 、 粒 子 物理 学 和 天 文学 近年 来 的 发 展 也 有 一 部 分 要 归功 于 深度 学 习 。 可 以 看 到 ， 深 度 学 
习 已 经 逐渐 演变 成 一 个 工程 师 和 科学 家 缘 可 使 用 的 普 适 工具 。 
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1.4 Rm 


在 描述 深度 学 习 的 特点 之 前 ， 我 们 先 回顾 并 概括 一 下 机 器 学 习 和 深度 学 习 的 关系 。 机 器 学 
习 研 究 如 何 使 计算 机 系统 利用 经 验 改善 性 能 。 它 是 人 工 智能 领域 的 分 支 ， 也 是 实现 人 工 智 能 的 
一 种 手段 。 在 机 器 学 习 的 众多 研究 方向 中 ， 表 征 学 习 关 注 如 何 自 动 找 出 表示 数据 的 合适 方式 ， 
以 便 更 好 地 将 输入 变换 为 正确 的 输出 ， 而 本 书 要 重点 探讨 的 深度 学 习 是 具有 多 级 表示 的 表征 学 
习 方 法 。 在 每 一 级 (从 原始 数据 开始 )， 深 度 学 习 通过 简单 的 函数 将 该 级 的 表示 变换 为 更 高 级 
的 表示 。 因 此 ， 深 度 学 习 模 型 也 可 以 看 作 是 由 许多 简单 函数 复合 而 成 的 函数 。 当 这 些 复 合 的 函 
数 足够 多 时 ， 深 度 学 习 模 型 就 可 以 表达 非 剃 复杂 的 变换 。 


深度 学 习 可 以 逐 级 表示 越 来 越 抽象 的 概念 或 模式 。 以 图 像 为 例 ， 它 的 输入 是 一 堆 原 始 像素 
值 。 深 度 学 习 模型 中 ， 图 像 可 以 逐 级 表示 为 特定 位 置 和 角度 的 边缘 、 由 边缘 组 合 得 出 的 花纹 、 
由 多 种 花纹 进一步 汇合 得 到 的 特定 部 位 的 模式 等 。 最 终 ， 模 型 能 够 较 容易 根据 更 高 级 的 表示 完 
成 给 定 的 任务 ， 如 识别 图 像 中 的 物体 。 值 得 一 提 的 是 ， 作 为 表征 学 习 的 一 种 ， 深 度 学 习 将 目 动 
找 出 每 一 级 表示 数据 的 合适 方式 。 


因此 ， 深 度 学 习 的 一 个 外 在 特点 是 端 到 端的 训练 。 也 就 是 说 ， 并 不 是 将 单独 调试 的 部 分 拼 
竣 起 来 组 成 一 个 系统 ， 而 是 将 整个 系统 组 建 好 之 后 一 起 训练 。 比 如 说 ， 计 算 机 视觉 科学 家 之 前 
曾 一 度 将 特征 抽取 与 机 器 学 习 模 型 的 构建 分 开 处 理 ， 像 是 Canny 边缘 探测 “和 SIFT 特征 提取 
曾 占 据 统 治 性 地 位 达 10 年 以 上 ， 但 这 也 就 是 人 类 能 找到 的 最 好 方法 了 。 当 深度 学 习 进 入 这 个 
领域 后 ， 这 些 特征 提取 方法 就 被 性 能 更 强 的 目 动 优化 的 逐 级 过 滤器 蔡 代 了 。 


相似 地 ， 在 自然 语言 处 理 领 域 ， 词 袋 模型 多 年 来 都 被 认为 是 不 二 之 选 “。 词 袋 模型 是 将 
一 个 句子 映射 到 一 个 词 频 向 量 的 模型 ， 但 这 样 的 做 法 完全 忽视 了 单词 的 排列 顺序 或 者 句 中 的 标 
点 符号 。 不 幸 的 是 ， 我 们 也 没有 能 力 来 手工 抽取 更 好 的 特征 。 但 是 目 动 化 的 算法 反而 可 以 从 所 
有 可 能 的 特征 中 搜寻 最 好 的 那个 ， 这 也 带 来 了 极 大 的 进步 。 例 如 ， 语 义 相关 的 词 通 入 能 够 在 加 
量 空 间 中 完成 如 下 推理 :“ 柏 林 - 德国 + 中 国 = 北京 "。 可 以 看 出 ， 这 些 都 是 端 到 端 训 练 整个 系 
ttt RA BR - 


除 端 到 端的 训练 以 外 ， 我 们 也 正在 经 历 从 含 参数 统计 模型 转向 完全 无 参数 的 模型 。 当 数据 
非常 稀缺 时 ， 我 们 需要 通过 简化 对 现实 的 假设 来 得 到 实用 的 模型 。 当 数据 充足 时 ， 我 们 就 可 以 
用 能 更 好 地 拟 合 现实 的 无 参数 模型 来 苦 代 这 些 含 参数 模型 。 这 也 使 我 们 可 以 得 到 更 精确 的 模 
型 ， 尽 管 需 要 牺牲 一 些 可 解释 性 。 


相对 于 其 他 经 典 的 机 器 学 习 方 法 而 言 ， 深 度 学 习 的 不 同 在 于 对 非 最 优 解 的 包容 、 非 凸 非 线 
性 优化 的 使 用 ， 以 及 勇于 尝试 没有 被 证 明 过 的 方法 。 这 种 在 处 理 统计 问题 上 的 新 经 验 主义 吸引 
了 大 量 人 才 的 涌 入 ， 使 得 大 量 实际 问题 有 了 更 好 的 解决 方案 。 尽 管 大 部 分 情况 下 需要 为 深度 学 
习 修 改 甚 至 重新 发 明 已 经 存在 数 十 年 的 工具 ， 但 是 这 绝对 是 一 件 非常 有 意义 并 令 人 兴奋 的 事 。 


最 后 ， 深 度 学 习 社区 长 期 以 来 以 在 学 术 界 和 企业 之 间 分 享 工 具 而 目 豪 ， 并 开源 了 许多 优 
秀 的 软件 库 、 统 计 模 型 和 预 训练 网 络 。 正 是 本 着 开放 开源 的 精神 ， 本 书 的 内 容 和 基于 它 的 教 


“8。 第 1 章 深度 学 习 简介 


学 视频 可 以 自由 下 载 和 随意 分 享 。 我 们 致力 于 为 所 有 人 降低 学 习 深 度 学 习 的 门槛 ， 并 斋 望 大 
家 从 中 获 益 。 


机 器 学 习 研 究 如 何 使 计算 机 系统 利用 经 验 改善 性 能 。 它 是 人 工 智能 领域 的 分 支 ， 也 是 实现 人 
工 智 能 的 一 种 手段 。 

作为 机 器 学 习 的 一 类 ， 表 征 学 习 关 注 如 何 自动 找 出 表示 数据 的 合适 方式 。 

深度 学 习 是 具有 多 级 表示 的 表征 学 习 方 法 。 它 可 以 逐 级 表示 越 来 越 抽 象 的 概念 或 模式 。 
深度 学 习 所 基于 的 神经 网 络 模 型 和 用 数据 编程 的 核心 思想 实际 上 已 经 被 研究 了 数 百年 。 
深度 学 习 已 经 逐渐 演变 成 一 个 工程 师 和 科学 家 颖 可 使 用 的 首 适 工具 。 


(1) 你 现在 正在 编写 的 代码 有 没有 可 以 被 “学 习 ” 的 部 分 ， 也 就 是 说 ， 是 否 有 可 以 被 机 器 学 习 
改进 的 部 分 ? 

(2) 你 在 生活 中 有 没有 这 样 的 场景 : 虽然 有 许多 展示 如 何 解 决 问题 的 样 例 ， 但 却 缺 少 自动 解决 
问题 的 算法 ? 它们 也 许 是 深度 学 习 的 最 好 猎物 。 

(3) 如 果 把 人 工 智 能 的 发 展 看 作 是 新 一 次 工业 革命 ， 那 么 深度 学 习 和 数据 的 关系 是 否 像 是 蒸汽 
机 与 煤炭 的 关系 呢 ? 为 什么 ? 

(4) 端 到 端的 训练 方法 还 可 以 用 在 哪里 ? 物理 学 、 工 程 学 还 是 经 济 学 ? 

(5) 为 什么 应 该 让 深度 网 络 模仿 人 脑 结构 ?为 什么 不 该 让 深度 网 络 模仿 人 脑 结构 ? 








在 学 习 之 前 ， 我 们 需要 获取 本 书 的 代码 ， 并 安装 运行 本 书 的 代码 所 需要 的 软件 。 作 为 动手 
学 深度 学 习 的 基础 ， 我 们 还 需要 了 解 如 何 对 内 存 中 的 数据 进行 操作 ， 以 及 对 函数 求 梯度 的 方 
法 。 最 后 ， 我 们 应 养 成 主动 查阅 文档 来 学 习 代 码 的 良好 习惯 。 


2 .1 获取 和 运行 本 书 的 代码 扫 码 直达 讨论 区 


本 节 将 介绍 如 何 获取 本 书 的 代码 和 安装 运行 代码 所 依赖 的 软件 虽然“ 国 ] 半 各 
跳 过 本 节 不 会 影响 后 面 的 阅读 ， 但 我 们 还 是 强烈 建议 读者 按照 下 面 的 步骤 “ 风 隔 二 HA 
来 动手 操作 一 遍 。 本 书 大 部 分 章节 的 练习 都 涉及 改动 代码 并 观察 运行 结果 。 A hii 
因此 ， 本 节 是 完成 这 些 练习 的 基础 。 









2.1.1 ”获取 代码 并 安装 运行 环境 


本 书 的 内 容 和 代码 均 可 在 网 上 免费 获取 。 我 们 推荐 使 用 conda 来 安装 运行 代码 所 依赖 的 软 
件 。conda 是 一 个 流行 的 Python 包 管 理 软件 .Windows 和 Linux/macOS 用 户 可 分 别 参照 以 下 步骤 。 


4: Windows 用 户 


第 一 次 运行 需要 完整 完成 下 面 5 个 步骤 。 如 果 是 再 次 运行 ， 可 以 忽略 前 面 3 步 的 下 载 和 安 
装 ， 直 接 跳 转 到 第 四 步 和 第 五 步 。 


第 一 步 是 根据 操作 系统 下 载 并 安装 Miniconda， 在 安装 过 程 中 需要 勾 选 “Add Anaconda to 
the system PATH environment variable” 选 项 〈 如 当 conda 版 本 为 4.6.14 时 )。 


第 二 步 是 下 载 包 含 本 书 全 部 代码 的 压缩 包 。 我 们 可 以 在 浏览 器 的 地 址 栏 中 输入 https:// 
zh.d21.ai/d21-zh-1.0.zip 并 按 回 车 键 进 行 下 载 ， 下 载 完 成 后 ， 创 建文 件 夹 “d21-zh” 并 将 以 上 压 
缩 包 解压 到 这 个 文件 夹 。 在 该 目录 文件 资源 管理 器 的 地 址 栏 输入 cmd 进入 命令 行 模式 。 


第 三 步 是 使 用 conda 创建 虚拟 〈 运 行 ) 环境 。conda 和 pip 默认 使 用 国外 站 点 来 下 载 软件 ， 
我 们 可 以 配置 国内 镜像 来 加 速 下 载 (国外 用 户 无 须 此 操作 )。 
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# 配置 清华 PyPI 镜 像 (如 无 法 运行 ， 将 pip 版 本 升级 到 19 .0.6 以 上 ) 
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple 


接 下 来 使 用 conda 创建 虚拟 环境 并 安装 本 书 需 要 的 软件 。 这 里 environment. yml 是 放置 
在 代码 压缩 包 中 的 文件 。 使 用 文本 编辑 器 打开 该 文件 ， 即 可 查看 运行 压缩 包 中 本 书 的 代码 所 依 
赖 的 软件 (如 MXNet 和 d2Lzh 包 ) 及 版 本 号 。 


conda env create -f environment.yml 


若 使 用 国内 镜像 后 出 现 安装 错误 ， 首 先 取消 PyPI 镜像 配置 ， 即 执行 命令 pip config unset 
global.index-url. 然后 重 试 命 令 conda env create -f environment. yml. 

UE EG ZA GEA A. WAP E RE IS’ TAA RGAE. A BEB h eV 
环境 ， 可 使 用 命令 conda deactivate (4 conda 版 本 低 于 4.4， 使 用 命令 deactivate). 


conda activate gluon # 若 conda 版 本 低 于 4.4， 使 用 命令 activate gluon 


第 五 步 是 打开 Jupyter 记事 本 。 


jupyter notebook 


这 时 在 浏览 器 打开 http:/Wlocalhost:8888〈 通 常会 自动 打开 ) 就 可 以 查看 和 运行 本 书 中 每 一 
节 的 代码 了 。 


本 书 中 若干 章节 的 代码 会 自动 下 载 数 据 集 和 预 训练 模型 ， 并 默认 使 用 美国 站 点 下 载 。 我 们 
可 以 在 运行 Jupyter 记事 本 前 指定 MXNet 使 用 国内 站 点 下 载 书 中 的 数据 和 模型 《国外 用 户 无 须 
此 操作 )。 


set MXNET_GLUON_REPO=https://apache-mxnet.s3..cn-north-1.amazonaws.com.cn/ jupyter., 
notebook 


2. Linux/macOS 用户 


第 一 步 是 根据 操作 系统 下 载 Miniconda， 它 是 一 个 sh 文件 。 打 开 Terminal 应 用 进入 命令 行 
来 执行 这 个 sh 文件 ， 例 如 : 


# 以 Miniconda 官 方 网 站 上 的 安装 文件 名 为 准 
sh Miniconda3-latest-Linux-x86_64.sh 


安装 时 会 显示 使 用 条 款 ， 按 “ |} ”继续 阅读 ， 按 “Q” 退 出 阅读 。 之 后 需要 回答 下 面 几 个 问题 
(如 当 conda 版 本 为 4.6.14 BY): 


Do you accept the License terms? [yes|no] 

[no] >>> yes 

Do you wish the installer to initialize Miniconda3 
by running conda init? [yes|no] 

[no] >>> yes 


安装 完成 后 ， 需 要 让 conda ER. Linux 用 户 需 要 运行 一 次 source ~/.bashre 或 重 局 命 
令 行 应 用 ; macos 用 户 需 要 运行 一 次 source ~/.bash_profile 或 重启 命令 行 应 用 。 


2.1 获取 和 运行 本 书 的 代码 + ill? 


第 二 步 是 下 载 包含 本 书 全 部 代码 的 压缩 包 ， 解 压 后 进入 文件 夹 。 运 行 以 下 命令 (Linux 用 
PERT unzip， 可 运行 命令 sudo apt install unzip ZJ): 


mkdir d2l-zh && cd d2l-zh 
curl https://zh.d2l.ai/d2l-zh-1.0.zip -o d2l-zh.zip 
unzip d2l-zh.zip && rm d21l-zh.zip 


第 三 步 至 第 五 步 可 参考 前 面 Windows FN ZAR. £ conda 版 本 低 于 4.4， 其 中 第 四 步 
需 将 命令 替换 为 source activate gLuon， 并 使 用 命令 source deactivate 退出 虚拟 环境 。 


2.1.2 更 新 代码 和 运行 环境 


为 了 适应 深度 学 习 和 MXNet 的 快速 友 展 ， 本 书 的 开源 内 容 将 定期 发 布 新 版 本 。 我 们 推荐 
大 家 定期 更 新 本 书 的 开源 内 容 〈 如 代码 ) 和 相应 的 运行 环境 (如 新 版 MXNet)。 以 下 是 更 新 的 
具体 步骤 。 


第 一 步 是 重新 下 载 最 新 的 包含 本 书 全 部 代码 的 压缩 包 。 下 载 地 址 为 https://zh.d21.ai/d21-zh.zip。 
解压 后 进入 文件 夹 “d21-zh”。 
第 二 步 是 使 用 下 面 的 命令 更 新 运行 环境 : 


conda env update -f environment.yml 


之 后 的 激活 环境 和 运行 Jupyter 记事 本 的 步骤 与 本 节 前 面 介 绍 的 一 致 。 


2.1.3 使 用 GPU 版 的 MXNet 


通过 前 面 介绍 的 方式 安装 的 MXNet 只 支持 CPU 计算 。 本 书 中 部 分 章节 需要 或 推荐 使 用 
GPU 来 运行 。 如 果 你 的 计算 机 上 有 NVIDIA 显卡 并 安装 了 CUDA， 建 议 使 用 GPU 版 的 MXNet. 


BH ke aK CPU 版 本 MXNet。 如 果 没 有 安装 虚拟 环境 ， 可 以 跳 过 此 步 。 如 果 已 安装 虚 
Wp, ECW AZAR, Fea CPU 版 本 的 MXNet。 


pip uninstall mxnet 


然后 退出 虚拟 环境 。 


第 二 步 是 更 新 依赖 为 GPU 版 本 的 MXNet。 使 用 文本 编辑 器 打开 本 书 的 代码 所 在 根 目录 下 
的 文件 environment .ymL， 将 里 面 的 字符 串 “mxnet” 蔡 换 成 对 应 的 GPU 版 本 。 例 如 ， 如 果 
计算 机 上 装 的 是 8.0 版 本 的 CUDA， 将 该 文件 中 的 字符 串 “mxnet” 改 为 “mxnet-cu80”。 如 果 
计算 机 上 安装 了 其 他 版 本 的 CUDA (如 7.5、9.0、9.2 等 ) ， 对 该 文件 中 的 字符 串 “mxnet” 做 
类 似 修改 〈 如 改 为 “mxnet-cu7$”“mxnet-cu90”“mxnet-cu92” 等 )。 保 存 文件 后 退出 。 


第 三 步 是 更 新 虚拟 环境 ， 执 行 命令 
conda env update -f environment. yml 


之 后 ， 我 们 只 需要 再 激活 安装 环境 就 可 以 使 用 GPU 版 的 MXNet 运行 本 书 中 的 代码 了 。 需 
要 提醒 的 是 ， 如 果 之 后 下 载 了 新 代码 ， 那 么 还 需要 重复 这 3 步 操 作 以 使 用 GPU 版 的 MXNet。 
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小 结 
e 为 了 能 够 动手 学 深度 学 习 ， 需 要 获取 本 书 的 代码 并 安装 运行 环境 。 
© 建议 大 家 定期 更 新 代码 和 运行 环境 。 


练习 
获取 本 书 的 代码 并 安装 运行 环境 。 如 果 你 在 安装 时 遇 到 任何 问题 ， 请 扫 一 扫 本 节 开 始 的 二 维 码 。 
在 讨论 区 ， 你 可 以 查阅 疑难 问题 汇总 或 者 提问 。 





2.2 ”数据 操作 


在 深度 学 习 中 ， 我 们 通常 会 频繁 地 对 数据 进行 操作 。 作 为 动手 学 深度 [m] 
学 习 的 基础 ， 本 节 将 介绍 如 何 对 内 存 中 的 数据 进行 操作 。 

在 MXNet 中 ，NDArray 是 一 个 类 ， 也 是 存储 和 变换 数据 的 主要 工具 。 
为 了 简洁 ， 本 书 常 将 NDArray 实例 直接 称 作 NDArray。 如 果 你 之 前 用 过 
NumPy， 你 会 发 现 NDArray 和 NumpPy 的 多 维 数 组 非常 类 似 。 然 而 ，NDArray 提供 GPU 计算 
和 自动 求 梯度 等 更 多 功能 ， 这 些 使 NDArray 更 加 适合 深度 学 习 。 






2.2.1 创建 NDArray | 

我 们 先 介 绍 NDArray 的 最 基本 功能 。 如 果 对 这 里 用 到 的 数学 操作 不 是 很 熟悉 ， 可 以 参阅 
附录 A。 

首先 从 MXNet 导入 ndarray 模块 。 这 里 的 nd 是 ndarray 的 缩写 形式 。 

In [1]: from mxnet import nd 

然后 我 们 用 arange 函数 创建 一 个 行 向 量 。 

In [2]: x = nd.arange(12) 


X 


Out[2]: 
Se Oe SO ae Se ee: ee: ee: ee © 
<NDArray 12 @cpu(0)> 
这 时 返回 了 一 个 NDArray 实例 ， 其 中 包含 了 从 0 开始 的 12 个 连续 整数 。 从 打印 X 时 显示 
的 属性 <NDArray 12 @cpu(0)> 可 以 看 出 ， 它 是 长 度 为 12 的 一 维 数 组 ， 且 被 创建 在 CPU 使 
用 的 内 存 上 。 其 中 @cpu(9) 里 的 0 没有 特别 的 意义 ， 并 不 代表 特定 的 核 。 


我 们 可 以 通过 shape 属性 来 获取 NDArray 实例 的 形状 。 
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In [3]: x.shape 
Out[3]: (12,) 


我 们 也 能 够 通过 size 属性 得 到 NDArray 实例 中 元 素 (element) 的 总 数 。 


In [4]: x.size 
Out[4]: 12 


下 面 使 用 reshape 函数 把 行 癌 量 x 的 形状 改 为 3, 4)， 也 就 是 一 个 3 17 4 列 的 窍 阵 ， 并 记 
EX GERE EAA SRE AN). 除了 形状 改变 之 外 ，X 中 的 元 素 保持 不 变 。 


In [5]: X = x.reshape((3, 4)) 
X 


Out[5]: 
[人 Zo ardsel 
L Ss Ta 
上 8. $4 Foeter] 
<NDArray 3x4 @cpu(0)> 
注意 ，X 属性 中 的 形状 发 生 了 变化 。 上 面 x.reshape((3, 4)) 也 可 写成 x.reshape((-1, 4)) 或 
x.reshape((3, -1))。 由 于 x 的 元 素 个 数 是 已 知 的 ， 这 里 的 -1 是 能 够 通过 元 素 个 数 和 其 他 维 
度 的 大 小 推断 出 来 的 。 
接 下 来 ， 我 们 创建 一 个 各 元 素 为 0， 形状 为 (2, 3, 4) 的 张 量 。 实 际 上 ， 之 前 创建 的 向 量 和 
矩阵 都 是 特殊 的 张 量 。 


In [6]: nd.zeros((2, 3, 4)) 


Out[6]: 


O 0. 0. O0.]]] 
<NDArray 2x3x4 @cpu(@)> 


类 似 地 ， 我 们 可 以 创建 各 元 素 为 1 的 张 量 。 


In [7]: nd.ones((3, 4)) 


Out[7]: 
tee ot hte 2.7 
be Pee ae T 
Uk Age | Se Se ey 
<NDArray 3x4 @cpu(0)> 
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我 们 也 可 以 通过 Python 的 列表 Aist) 指定 需要 创建 的 NDArray 中 每 个 元 素 的 值 。 


In. (6) Ve nd array CHR le tal [Le co She 2%: 684.2; 113) 
Y 


Out[8]: 
i 
(Sa 2-85 Mel 
Ce ee ae |e 
<NDArray 3x4 @cpu(0)> 


有 些 情况 下 ， 我 们 需要 随机 生成 NDArray 中 每 个 元 素 的 值 。 下 面 我 们 创建 一 个 形状 为 
(3,4) 的 NDArray。 它 的 每 个 元 素 都 随机 采样 于 均值 为 0、 标准 兰 为 1 的 正 态 分 布 。 


In [9]: nd.random.normal(0, 1, shape=(3, 4)) 


Out[9]: 
[[ 2.2122064 0.7740038 1.0434405 1.1839255 | 
[ 1.8917114 -1.2347414 -1.771029 -0.45138445 ] 
[ 0.57938355 -1.856082 -1.9768796 -0.20801921] ] 
<NDArray 3x4 @cpu(Q)> 
2.2.2 :运算 


NDArray 支持 大 量 的 运算 符 〈(operator)。 例 如 ， 我 们 可 以 对 之 前 创建 的 两 个 形状 为 (3, 4) 
的 NDArray 做 按 元 素 加 法 。 所 得 结果 形状 不 变 。 


In [IOFAN EY 


Out[10]: 
ias 2a Ger Bas 
LSe Fe D ako 
上 
<NDArray 3x4 @cpu(0)> 


按 元 素 乘 法 如 下 : 

In [11]: X * Y 

Out[11]: 
th See oe eg Se 
[ed 18°28 


[See ate 20; 14:1] 
<NDArray 3x4 @cpu(Q)> 


按 元 素 除 法 如 下 : 


Ih tis XY 


Out[12]: 
ia [ae eS te) 
ee 2.5 Ri Lets] 
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= S 2. 33 
<NDArray 3x4 @cpu(0)> 
按 元 素 做 指数 运算 如 下 : 


In [13]: Y.exp() 


Out[13]: 
[[ 7.389056 2.7182817 54.59815 20.085537 |] 
[ 2.7182817 7.389056 20.085537 54.59815 ] 
[54.59815 20.085537 7.389056 2.7182817] ] 
<NDArray 3x4 @cpu(0)> 
除了 按 元 素 计 算 外 ， 我 们 还 可 以 使 用 dot 函数 做 矩阵 乘法 。 下 面 将 X 与 Y 的 转 置 做 矩阵 
乘法 。 由 于 X 是 3 行 4 列 的 矩阵 ，Y 转 置 为 4 行 3 列 的 矩阵 ， 因 此 两 个 窍 阵 相 乘 得 到 3 行 3 列 
的 矩阵 。 


In [14]: nd.dot(X, Y.T) 


Out[14]: 
LE 28. ° 264 -38> 1 
[ 58. 60. 50.] 
[ 98. 100. 90.]] 
<NDArray 3x3 @cpu(0)> 
我 们 也 可 以 将 多 个 NDArray 连结 (concatenate)。 下 面 分 别 在 行 上 《维度 0， 即 形状 中 的 
最 左边 元 素 ) 和 列 上 (维度 1， 即 形状 中 左 起 第 二 个 元 素 ) 连结 两 个 矩阵 。 可 以 看 到 ， 输 出 的 
第 一 个 NDArray 在 维度 0 的 长 度 (6) 为 两 个 输入 和 矩阵 在 维度 0 的 长 度 之 和 (3 + 3)， 而 输出 
的 第 二 个 NDArray 在 维度 1 的 长 度 (8) 为 两 个 输入 矩阵 在 维度 1 的 长 度 之 和 (4+4)。 


In [15]: nd.concat(X, Y, dim=0), nd.concat(X, Y, dim=1) 


Out[15]: ( 
{8 Fe oS ae F 
| &, “Be Geo te) 
ee Mid 
as. De oe ae 
ie Fae fo ae N 


. 4. - 3.2 
<NDArray 6x4 @cpu(0)>, 


CGS eS a k w 3] 
省 
[> 


<NDArray 3x8 @cpu(0)>) 


使 用 条 件 判 别 式 可 以 得 到 元 素 为 0 或 1 的 新 的 NDArray。 以 X 一 Y 为 例 WRX ALY 
相同 位 置 的 条 件 判断 为 真 〈 值 相等 )， 那 么 新 的 NDArray 在 相同 位 置 的 值 为 1; 反之 为 0。 


In [16]: X == Y 


Out[16]: 
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R PR O Ta 

[0. 0. 0. 0.] 

[0 0. 0. 0.]] 
<NDArray 3x4 @cpu(0)> 


对 NDArray 中 的 所 有 元 素 求 和 得 到 只 有 一 个 元 素 的 NDArray。 
In [17]: X.sum() 
Out[17]: 
[66. ] 
<NDArray 1 @cpu(0)> 
我 们 可 以 通过 asscalar 函数 将 结果 变换 为 Python 中 的 标量 。 下 面 例 子 中 X 的 工 范 数 结 
果 同 上 例 一 样 是 单元 素 NDArray， 但 最 后 结果 变换 成 了 Python 中 的 标量 。 


In [18]: X.norm().asscalar() 


Out[18]: 22.494442 


我 们 也 可 以 把 Y.exp(). X.sum(). X.norm() 等 分 别 改 写 为 nd.exp(Y) 、nd.sum(X) nd. 
norm(X) 等 。 


2.2.3 广播 机 制 


前 面 我 们 看 到 如 何 对 两 个 形状 相同 的 NDArray 做 按 元 素 运算 。 当 对 两 个 形状 不 同 的 
NDArray 按 元 素 运 算 时 ， 可 能 会 触发 广播 (broadcasting) HLH: 先 适 当 复 制 元 素 使 这 两 个 
NDArray 形状 相同 后 再 按 元 素 运算 。 


先 定义 两 个 NDArray。 


In [19]: A = nd.arange(3).reshape((3, 1)) 
B = nd.arange(2).reshape((1, 2)) 
A, B 


DUCTILITY 
[[0.] 
[1.] 
[2.]] 
<NDArray 3x1 @cpu(0)>, 
te... 2.74 
<NDArray 1x2 @cpu(Q)>) 


由 于 A 和 B 分 别 是 3 77 1 列 和 1 行 2 FUSE, RBH A+B, WA apy 3 
个 元 素 被 广播 (复制 ) 到 了 第 二 列 ， 而 B 中 第 一 行 的 2 个 元 素 被 广播 (复制 ) 到 了 第 二 行 和 第 
三 行 。 如 此 ， 就 可 以 对 2 个 3 行 2 列 的 矩阵 按 元 素 相 加 。 


In [20]: A +B 


Out[20]: 
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ELE@Q% 
Eks ol 


[2v3] 
<NDArray 3x2 @cpu(0)> 


2.2.4 索引 


在 NDArray 中 ， 索 引 Cindex) 代表 了 元 素 的 位 置 。NDArray 的 索引 从 0 开始 逐一 递增 。 
例如 ， 一 个 3 行 2 列 的 矩阵 的 行 索引 分 别 为 0、1 和 2， 列 索引 分 别 为 0 和 1。 


在 下 面 的 例子 中 ， 我 们 指定 了 NDArray 的 行 索引 截取 范围 [1:3] 。 依 据 左 闭 右 开 指定 范 
围 的 惯例 ， 它 截取 了 矩阵 x 中 行 索引 为 1 和 2 的 两 行 。 


Tn C22) AiE) 


Out[21]: 
Og OR Bin a TA 
| Gs. Be ks kE 
<NDArray 2x4 @cpu(0)> 


我 们 可 以 指定 NDArray 中 需要 访问 的 单个 元 素 的 位 置 ， 如 和 矩阵 中 行 和 列 的 索引 ， 并 为 该 
TOR HBT EE : 


In (221: Xf[i, 2] =9 
X 


Out[22]: 
AE Fe OR Cet: Fr 
i.e. Beale 
ce Dy: Bie Bao wt 
<NDArray 3x4 @cpu(0)> 


当然 ， 我 们 也 可 以 截取 一 部 分 元 素 ， 并 为 它们 重新 赋值 。 在 下 面 的 例子 中 ， 我 们 为 行 索引 
为 1 的 每 一 列 元 素 重 新 赋值 。 


ih [23 XLA T E 
X 


Out[23]: 
Lt Obs Se Sal 
EE 
By fe Bee tila 
<NDArray 3x4 @cpu(0)> 


2.2.5 ”运算 的 内 存 开销 


在 前 面 的 例子 里 我 们 对 每 个 操作 新 开 内 存 来 存储 运算 结果 。 举 个 例子 ， 即 使 像 Y=X+Y 这 
样 的 运算 ， 我 们 也 会 新 开 内 存 ， 然 后 将 Y 指向 新 内 存 。 为 了 演示 这 一 点 ， 我 们 可 以 使 用 Python 
目 市 的 id 函数 : 如 果 两 个 实例 的 ID 一 致 ， 那 么 它们 所 对 应 的 内 存 地 址 相同 ， 反 之 则 不 同 。 
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In [24]: before = id(Y) 
y= y" X 
id(Y) == before 


Out[24]: False 
如 果 想 指定 结果 到 特定 内 存 ， 我 们 可 以 使 用 前 面 介 绍 的 索引 来 进行 着 换 操作 。 在 下 面 的 例 
子 中 ， 我 们 先 通过 zeros_like 创建 和 YY 形状 相同 且 元 素 为 0 的 NDArray， 记 为 Z。 接 下 来 ， 
我 们 把 X + Y 的 结果 通过 [:] 写 进 Z 对 应 的 内 存 中 。 
In [25]: Z = Y.zeros_like() 
before = id(Z) 


Zi] = + ¥ 
id(Z) == before 


Out[25]: True 

实际 上 ， 上 例 中 我 们 还 是 为 X+Y 开 了 临时 内 存 来 存储 计算 结果 ， 再 复制 到 Z 对 应 的 内 存 。 
如 果 想 避免 这 个 临时 内 存 开 销 ， 我 们 可 以 使 用 运算 符 全 名 函数 中 的 out BAL. 

In [26]: nd.elemwise_add(X, Y, out=Z) 

id(Z) == before 

Out[26]: True 

如 果 Xx 的 值 在 之 后 的 程序 中 不 会 复 用 ， 我 们 也 可 以 用 X[:] =X+Y 或 者 X+=Y 来 减少 运算 
的 内 存 开销 。 


In [27]: before = id(X) 
K += y 
id(X) == before 


Out[27]: True 


2.2.6 NDArray 和 NumPy 相 互 变 换 
我 们 可 以 通过 array 函数 和 asnumpy 函数 令 数 据 在 NDArray 和 NumPy 格 式 之 间 相 互 变换 。 
下 面 将 NumPy 实例 变换 成 NDArray 实例 。 
In [28]: import numpy as np 
P 


D 
D 


np.ones((2, 3)) 
nd.array(P) 


Out[28]: 
CEE. ae Is] 
Pd. dad] 
<NDArray 2x3 @cpu(0)> 


再 将 NDArray 实例 变换 成 NumPy 实例 。 
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In [29]: D.asnumpy() 


Out(29]:. arravytTii.. Ty 51, 
[1., 1., 1.]], dtype=float32) 


小 结 
。 NDArray 是 MXNet 中 存储 和 变换 数据 的 主要 工具 。 
© 可 以 轻松 地 对 NDArray 创建 、 运 算 、 指 定 索引 ， 并 与 NumPy 之 间 相 互 变换 。 


练习 

(1) 运行 本 节 中 的 代码 。 将 本 节 中 条 件 判 别 式 X ==Y 改 为 X<Y 或 X>Y， 看 看 能 够 得 到 什么 样 
的 NDArray. 

(2) 将 广播 机 制 中 按 元 素 运算 的 两 个 NDArray 替换 成 其 他 形状 ， 结 果 是 否 和 预期 一 样 ? 
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"a 
5 
a 






在 深度 学 习 中 ， 我 们 经 常 需要 对 水 数 求 梯度 (gradient)。 本 节 将 介绍 如 [m] 
何 使 用 MXNet 提供 的 autograd 模块 来 自动 求 梯 度 。 如 果 对 本 节 中 的 数学 
概念 〈 如 梯度 ) 不 是 很 熟悉 ， 可 以 参阅 附录 A. 


In [1]: from mxnet import autograd，nd 





2.3.1 简单 例子 


我 们 先 看 一 个 简单 例子 :对 函数 y=2x x 求 关于 列 向 量 x 的 梯度 。 我 们 先 创建 变量 x， 
并 赋 初 值 。 


In [2]: x = nd.arange(4).reshape((4, 1)) 
X 


Out[2]: 
[[9.] 
[1.] 
[2.] 
[3.]] 
<NDArray 4x1 @cpu(0)> 


为 了 求 有 关 变 量 x 的 梯度 ， 我 们 需要 先 调用 attach_grad 函数 来 申请 存储 梯度 所 需要 的 内 存 。 
In [3]: x.attach_grad() 


下 面 定义 有 关 变 量 x 的 函数 。 为 了 减少 计算 和 内 存 开 销 ， 默 认 条 件 下 MXNet 不 会 记录 用 
于 求 梯度 的 计算 。 我 们 需要 调用 record HAREK MXNet 记录 与 求 梯度 有 关 的 计算 。 
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In [4]: with autograd.record(): 
y = 2 * nd.dot(x.T, x) 


由 于 x 的 形状 为 (4, 1) y 是 一 个 标量 。 接 下 来 我 们 可 以 通过 调用 backward 函数 目 动 求 
梯度 。 需 要 注意 的 是 ， 如 果 y 不 是 一 个 标量 ，MXNet 将 默认 先 对 y 中 元 素 求 和 得 到 新 的 变量 ， 
再 求 该 变量 有 关 x 的 梯度 。 


In [5]: y.backward() 


函数 y=2x 'x 关于 x 的 梯度 应 为 4x。 现 在 我 们 来 验证 一 下 求 出 来 的 梯度 是 正确 的 。 


In [6]: assert (x.grad - 4 * x).norm().asscalar() == 0 
x.grad 


Out[6]: 
[{ 90.] 
[ 4.] 
[ 8.] 
[12.]] 
<NDArray 4x1 @cpu(0)> 


2.3.2 ”训练 模式 和 预测 模式 
从 上 面 可 以 看 出 ， 在 调用 record 函数 后 ，MXNet 会 记录 并 计算 梯度 。 此 外 ， 默 认 情 况 下 
autograd 还 会 将 运行 模式 从 预测 模式 转 为 训练 模式 。 这 可 以 通过 调用 is_training 函数 来 查看 。 


In [7]: print(autograd.is_training() ) 
with autograd.record(): 
print (autograd.is_training() ) 


False 
True 


在 有 些 情况 下 ， 同 一 个 模型 在 训练 模式 和 预测 模式 下 的 行为 并 不 相同 。 我 们 会 在 后 面 的 章 
节 (如 3.13 节 ) 详细 介绍 这 些 区 别 。 


2.3.3 对 Python 控制 流 求 梯度 


使 用 MXNet 的 一 个 便利 之 处 是 ， 即 使 函数 的 计算 图 包含 了 Python 的 控制 流 《〈“ 如 条 件 和 循 
环 控制 )， 我 们 也 有 可 能 对 变量 求 梯 度 。 


考虑 下 面 程序 ， 其 中 包含 Python 的 条 件 和 循环 控制 。 需 要 强调 的 是 ， 这 里 循环 (while 
循环 ) TERA AAA AT Cf 语句 ) 的 执行 都 取决 于 输入 b 的 值 。 


In [8]: def f(a): 


b=ar* 2 
while b.norm().asscalar() < 1000: 
b=b* 2 


if b.sum().asscalar() > 0: 
c =b 
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else: 
c = 100 « b 
return c 


我 们 像 之 前 一 样 使 用 record 函数 记录 计算 ， 并 调用 backward 函数 求 梯度 。 


In [9]: a = nd.random.normal(shape=1) 
a.attach_grad() 
with autograd.record(): 
c = f(a) 
c.backward() 
RANK FEM ERA FRM. BRL, SEMA a， 其 输出 必然 是 f(a) = 
x*a 的 形式 ， 其 中 标量 系数 x 的 值 取决 于 输入 a。 由 于 c=f(a) EX a 的 梯度 为 x， 且 值 为 c/a， 
我 们 可 以 像 下 面 这 样 验 证 对 本 例 中 控制 流 求 梯度 的 结果 。 


In [10]: a.grad == c / a 


Out[10]: 
[1.] 
<NDArray 1 @cpu(0)> 


MXNet 提供 autograd 模块 来 自动 化 求 导 过 程 。 

MXNet 的 autograd 模块 可 以 对 一 般 的 命令 式 程 序 进行 求 寻 。 

MXNet 的 运行 模式 包括 训练 模式 和 预测 模式 。 我 们 可 以 通过 autograd.is_training() 
来 判断 运行 模式 。 


练习 

(1) 在 本 节 对 控制 流 求 梯度 的 例子 中 ， 把 变量 a 改 成 一 个 随机 向 量 或 矩阵 。 此 时 计算 结果 c 不 
再 是 标量 ， 运 行 结果 将 有 何 变化 ? 该 如 何 分 析 该 结果 ? 

(2) 重新 设计 一 个 对 控制 流 求 梯度 的 例子 。 运 行 并 分 析 结 果 。 





2.4 ”查阅 文档 


受 篇 幅 所 限 ， 本 书 无 法 对 所 有 用 到 的 MXNet 函数 和 类 一 一 详细 介绍 。 OF By 
读者 可 以 查阅 相关 文档 来 做 更 深入 的 了 解 。 i 








2.4.1 ”查找 模块 里 的 所 有 冰 数 和 类 


当 我 们 想 知 道 一 个 模块 里 面 提供 了 哪些 可 以 调用 的 函数 和 类 的 时 候 ， 可 以 使 用 dir Hak. 
下 面 我 们 打印 nd. random 模块 中 所 有 的 成 员 或 属性 。 
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In [1]: from mxnet import nd 


print(dir(nd.random)) 
i A Nh A A eee aoe)... Ie”, 


一 一 = JF 一 


< 人 


一 一 3 一 一 一 一 》 


f 


'_random_helper', 'current_context', 'exponential', 'exponential_like', 'gamma', 
+ 'gamma_like', 'generalized_negative_binomial', 
'generalized_negative_binomial_like', 'multinomial', 'negative_binomial', 
'negative_binomial_like', 'normal', 'normal_like', 'numeric_types', 'poisson', 
'poisson_like', 'randint', 'randn', 'shuffle', 'uniform', 'uniform_like'] 


BARIT LARE AFAMAR (Python 的 特别 对 象 ) 或 者 由 _ 开头 的 函 
数 〈 一 般 为 内 部 函数 )。 通 过 其 余 成 员 的 名 字 我 们 大 致 猜测 出 这 个 模块 提供 了 各 种 随机 数 的 


生成 方法 ， 包 括 从 均匀 分 布 采样 (uniform)、 从 正 态 分 布 采样 (normaL)、 从 泊 松 分 布 采样 
(poisson) 等 。 


a Te 


2.4.2 碍 找 特定 函数 和 类 的 使 用 


想 了 解 某 个 函数 或 者 类 的 具体 用 法 时 ， 可 以 使 用 help 函数 。 让 我 们 以 NDArray 中 的 
ones_like HAA, Ai CNHI. 


In [2]: help(nd.ones_like) 

Help on function ones_like: 

ones_lLike(data=None, out=None, name=None, **kwargs) 
Return an array of ones with the same shape and type 


as the input array. 


Examples: : 


0 
Dey TF 


ones_like(x) RRS Fee E Sy 


et thie oe Pop 


Parameters 


data : NDArray 
The input 


out : NDArray, optional 
The output NDArray to hold the result. 
Returns 
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out : NDArray or list of NDArrays 
The output of this function. 


从 文档 信息 我 们 了 解 到 ，ones_Like 函数 会 创建 和 输入 NDArray 形状 相同 且 元 素 为 1 的 
新 NDArray。 我 们 可 以 验证 一 下 。 


Irs 
y = x.ones_like() 
y 

Out[3]: 
hs Woe dike 


te Pe 
<NDArray 2x3 @cpu(0)> 


在 Jupyter 记事 本 里 ， 我 们 可 以 使 用 ?来 将 文档 显示 在 另外 一 个 窗口 中 。 例 如 ， 使 用 
nd.random.uniform? 将 得 到 与 help(nd.random.uniform) 几乎 一 样 的 内 容 ， 但 会 显示 在 额 
外 窗口 里 。 此 外 ， 如 果 使 用 nd.random.uniform??， 那 么 会 额外 显示 该 函数 实现 的 代码 。 


2.4.3 ”在 MXNet 网 站 上 查阅 


读者 也 可 以 在 MXNet 的 网 站 上 查阅 相关 文档 。 访 问 MXNet 网 站 https://mxnet.apache.org/ 
(如 图 2-1 Aras), ATER AY FASE “API” A AAPA NRO. Ah, thal 
以 在 网 页 右上 方 含 “Search” 字 样 的 搜索 框 中 直接 搜索 函数 或 类 名 称 。 


Community ~ Versions(master) - 


Apache MXNet (Inc 


I r {> daala 
GUISES L QL TTY 


A 60-minute Gluon Crash Course MXNet 1.2.0 Released Introducing the Scala Inference API 





Check out our quick overview of how to use We're excited to announce the release of A model loading and inference API is now 


图 2-1 MXNet 官方 网 站 


图 2-2 展示 了 MXNet 网 站 上 有 关 ones_Like RAH ME. 
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Ox net install Gluon ~ API ~ Docs ~ Community ~ Versions(master) ~ 


Return an array of ones with the same shape and type as the input array. 


> The NDArray class 

> Basic neural network functions ones_like(x) = {[ 1., 1., 1.], 
Cay Repth NE E 

Array creation routines ; 


b Array manipulation routines Parameters: 。 data (NDArray) -The input 
» out (NDArray, optional — The output NDArray to hold the result. 


Returns: out — The output of this function. 
Return type: NDArray or list of NDArrays 


P Mathematical functions 


> Neural network 





> API Reference 


图 2-2 MXNet 网 站 上 有 关 ones_like 函数 的 文档 


小 结 
。 遇 到 不 熟悉 的 MXNet API 时 ， 可 以 主动 查阅 它 的 相关 文档 。 
© 查阅 MXNet 文档 可 以 使 用 dir 和 help 函数 ， 或 访问 MXNet 官方 网 站 。 


练习 
查阅 NDArray 支持 的 其 他 操作 。 





深度 学 习 基础 





从 本 章 开 始 ， 我 们 将 探索 深度 学 习 的 奥秘 。 作 为 机 器 学 习 的 一 类 ， 深 度 学 习 通常 基于 神经 
网 络 模型 逐 级 表示 越 来 越 抽象 的 概念 或 模式 。 我 们 先 从 线性 回归 和 softmax 回归 这 两 种 单 层 神 
经 网 络 入 手 ， 简 要 介绍 机 器 学 习 中 的 基本 概念 。 然 后 ， 我 们 由 单 层 神经 网 络 延 伸 到 多 层 神 经 网 
络 ， 并 通过 多 层 感 知 机 引入 深度 学 习 模型 。 在 观察 和 了 解 了 模型 的 过 拟 合 现象 后 ， 我 们 将 介绍 
深度 学 习 中 应 对 过 拟 合 的 常用 方法 一 -权重 衰减 和 丢弃 法 。 接 着 ， 为 了 进一步 理解 深度 学 习 模 
型 训练 的 本 质 ， 我 们 将 详细 解释 正 疝 传播 和 反问 传播 。 掌 握 这 两 个 概念 后 ， 我 们 能 更 好 地 认识 
深度 学 习 中 的 数值 稳定 性 和 初始 化 的 一 些 问题 。 最 后 ， 我 们 通过 一 个 深度 学 习 应 用 案例 对 本 章 
内 容 学 以 致 用 。 


在 本 章 的 前 几 节 ， 我 们 先 介 绍 单 层 神经 网 络 一 一 线性 回归 和 softmax 回归 。 


3.1 线性 回归 


线性 回归 输出 是 一 个 连续 值 ， 因 此 适用 于 回归 问题 。 回 归 问 题 在 实际 [m]; [m] 
中 很 常见 ， 如 预测 房屋 价格 、 气 温 、 销 售 额 等 连续 值 的 问题 。 与 回归 问题 
不 同 ， 分 类 问题 中 模型 的 最 终 输出 是 一 个 离散 值 。 我 们 所 说 的 图 像 分 类 、 
垃圾 邮件 识别 、 疾 病 检 测 等 输出 为 离散 值 的 问题 都 属于 分 类 问题 的 范畴 。 [m] 
softmax 回归 则 适用 于 分 类 问题 。 

由 于 线性 回归 和 softmax 回归 都 是 单 层 神经 网 络 ， 它 们 涉及 的 概念 和 技术 同样 适用 于 大 
多 数 的 深度 学 习 模型 。 我 们 首先 以 线性 回归 为 例 ， 介 绍 大 多 数 深度 学 习 模型 的 基本 要 素 和 表 
示 方 法 。 








3.1.1 线性 回归 的 基本 要 素 


我 们 以 一 个 简单 的 房屋 价格 预测 作为 例子 来 解释 线性 回归 的 基本 要 素 。 这 个 应 用 的 目标 是 
预测 一 栋 房 子 的 售 出 价格 (元 )。 我 们 知道 这 个 价格 取决 于 很 多 因素 ， 如 房屋 状况 、 地 段 、 市 
场 行情 等 。 为 了 简单 起 见 ， 这 里 我 们 假设 价格 只 取决 于 房屋 状况 的 两 个 因素 ， 即 面积 (平方 
米 ) 和 房 龄 (年 )。 接 下 来 我 们 希望 探索 价格 与 这 两 个 因素 的 具体 关系 。 


1. 模型 


设 房屋 的 面积 为 4， 房 龄 为 鸭 ， 和 售 出 价格 为 y。 我 们 需要 建立 基于 输入 x 和 为 来 计算 输出 
y 的 表达 式 ， 也 就 是 模型 (model)。 顾 名 思 义 ， 线 性 回归 假设 输出 与 各 个 输入 之 间 是 线性 关系 : 


y = XW, +X W +b 


Hp wy, All wy ARE (weight), 是 偏差 (bias)， 且 均 为 标量 。 它 们 是 线性 回归 模型 的 参数 
(parameter)。 模 型 输出 了 是 线性 回归 对 真实 价格 y 的 预测 或 估计 。 我 们 通常 允许 它们 之 间 有 一 
定 误差 。 


2. 模型 训练 


接 下 来 我 们 需要 通过 数据 来 寻找 特定 的 模型 参数 值 ， 使 模型 在 数据 上 的 误差 尽 可 能 小 。 这 
个 过 程 叫 作 模 型 训练 (model training)。 下 面 我 们 介绍 模型 训练 所 涉及 的 3 MER. 


3. 训练 数据 


我 们 通常 收集 一 系列 的 真实 数据 ， 例 如 多 栋 房 屋 的 真实 售 出 价格 和 它们 对 应 的 面积 和 房 
龄 。 我 们 希望 在 这 个 数据 上 面 寻找 模型 参数 来 使 模型 的 预测 价格 与 真实 价格 的 误差 最 小 。 在 机 
器 学 习 术 语 里 ， 该 数据 集 被 称 为 训练 数据 集 (training data set) 或 训练 集 (training set)， 一 栋 
房屋 被 称 为 一 个 样本 〈sample) ， 其 真实 售 出 价格 叫 作 标签 (label) ， 用 来 预测 标签 的 两 个 因 系 
叫 作 特征 (feature)。 特 征用 来 表征 样本 的 特点 。 


假设 我 们 采集 的 样本 数 为 nx， 索引 为 i 的 样本 的 特征 为 x? 和 D, RER yO HFRS 
为 i 的 房屋 ， 线 性 回归 模型 的 房屋 价格 预测 表达 式 为 


Pe = xO w + x w, +b 


4. 损失 函数 

在 模型 训练 中 ， 我 们 需要 衡量 价格 预测 值 与 真实 值 之 间 的 误差 。 通 常 我 们 会 选取 一 个 非 负 
数 作为 误差 ， 且 数值 越 小 表示 误差 越 小 。 一 个 常用 的 选择 是 平方 函数 。 它 在 评估 索引 为 i 的 样 
本 误差 的 表达 式 为 


i l A) i 
LO (m, wba SIO — YOY 


其 中 常数 1/2 使 对 平方 项 求 导 后 的 常数 系数 为 1， 这 样 在 形式 上 稍微 简单 一 些 。 显 然 ， 误 差 越 
小 表示 预测 价格 与 真实 价格 越 相 近 ， 且 当 二 者 相等 时 误差 为 0。 给 定 训练 数据 集 ， 这 个 误差 只 
与 模型 参数 相关 ， 因 此 我 们 将 它 记 为 以 模型 参数 为 参数 的 函数 。 在 机 器 学 习 里 ， 将 衡量 误差 的 
函数 称 为 损失 函数 Closs function)。 这 里 使 用 的 平方 误差 函数 也 称 为 平方 损失 Csquare loss). 


通常 ， 我 们 用 训练 数据 集中 所 有 样本 误差 的 平均 来 衡量 模型 预测 的 质量 ， 即 
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LCW, Wa, -15 Ow, Wz, ==> 3 (x w, + xh? w, +b- yy 
i=l 


在 模型 训练 中 ， 我 们 希望 找 出 一 组 模型 参数 ， 记 为 wi, w;,b， 来 使 训练 样本 平均 损失 最 小 : 


* * * R 
Wi , W2, D = argmin £(w,, wz, b) 
Wi, Wa, b 


5. 优化 算法 


当 模 型 和 损失 函数 形式 较为 简单 时 ， 上 面 的 误差 最 小 化 问题 的 解 可 以 直接 用 公式 表达 出 
来 。 这 类 解 叫 作 解 析 解 (analytical solution )。 本 节 使 用 的 线性 回归 和 平方 误差 刚好 属于 这 个 苑 
畴 。 然 而 ， 大 多 数 深 度 学 习 模 型 并 没有 解析 解 ， 只 能 通过 优化 算法 有 限 次 迭代 模型 参数 来 尺 可 
能 降低 损失 函数 的 值 。 这 类 解 叫 作 数 值 解 (numerical solution). 


在 求 数值 解 的 优化 算法 中 ， 小 批量 随机 梯度 下 降 (mini-batch stochastic gradient descent) 
在 深度 学 习 中 被 广泛 使 用 。 它 的 算法 很 简单 : 先 选取 一 组 模型 参数 的 初始 值 ， 如 随机 选取 ; Re 
下 来 对 参数 进行 多 次 迭代 ， 使 每 次 迭代 都 可 能 降低 损失 函数 的 值 。 在 每 次 迭代 中 ， 先 随机 均 义 
采样 一 个 由 固定 数目 训练 数据 样本 所 组 成 的 小 批量 (mini-batch) B88， 然后 求 小 批量 中 数据 样本 
的 平均 损失 有 关 模 型 参数 的 导数 〈 梯 度 )， 最 后 用 此 结果 与 预先 设 定 的 一 个 正 数 的 乘积 作为 模 
型 参数 在 本 次 迭代 的 减 小 量 。 | 


在 训练 本 节 讨 论 的 线性 回归 模型 的 过 程 中 ， 模 型 的 每 个 参数 将 作 如 下 迭代: 


Bt W, Wa, b i i i i 
mew rps = 2? z= “Bi p> x9 (xOw +x w, +b-y) 
ieB 1 B| SS 
0 (w, w, b 
Wy = ; Ly ( = 2 ‘aa “Bi 15) x) (xO w, + xPw, +b- y”) 
| ber ôw, BS 
06 (w, w, b) aE. (i) (i) (i) 
可 之 ab fa l 2 ™2 y) 


ÆEAF, IB S, A (批量 大 小 ，batch size), n REF FD ¥ 
(learning rate) 并 取 正 数 。 需 要 强调 的 是 ， 这 里 的 批量 大 小 和 学 习 率 的 值 是 人 为 设 定 的， 并 不 
是 通过 模型 训练 学 出 的 ， 因 此 叫 作 超 参 数 (hyperparameter)。 我 们 通常 所 说 的 “ 调 参 ” 指 的 正 
是 调节 超 参 数 ， 例 如 通过 反复 试 错 来 找到 超 参 数 合适 的 值 。 在 少数 情况 下 ， 超 参数 也 可 以 通过 
模型 训练 学 出 。 本 书 对 此 类 情况 不 做 讨论 。 


6. 模型 预测 


模型 训练 完成 后 ， 我 们 将 模型 参数 w, w, b 在 优化 算法 停止 时 的 值 分 别 记 作 M, M, bo TE 
意 ， 这 里 我 们 得 到 的 并 不 一 定 是 最 小 化 损失 函数 的 最 优 解 wi,w,,b， 而 是 对 最 优 解 的 一 个 近 
似 。 然 后 ， 我 们 就 可 以 使 用 学 出 的 线性 回归 模型 x, wm +b 来 估算 训练 数据 集 以 外 任意 一 
栋 面 积 (平方 米 ) 为 为 、 房 龄 (年) 为 为 的 房屋 的 价格 了 。 这 里 的 估算 也 叫 作 模型 预测 、 模 型 
推断 或 模型 测试 。 


3.1.2 ”线性 回归 的 表示 方法 


我 们 已 经 阐述 了 线性 回归 的 模型 表达 式 、 训 练 和 预测 。 下 面 我 们 解释 线性 回归 与 神经 网 络 
的 联系 ， 以 及 线性 回归 的 矢量 计算 表达 式 。 


1. 神经 网 络 图 


在 深度 学 习 中 ， 我 们 可 以 使 用 神经 网 络 图 直观 地 表现 模型 结构 。 为 了 更 清晰 地 展示 线性 回 
归 作为 神经 网 络 的 结构 ， 图 3-1 使 用 神经 网 络 图 表示 本 节 中 介绍 的 线性 回归 模型 。 神 经 网 络 图 
隐 去 了 模型 参数 权重 和 偏差 。 


在 图 3-1 所 示 的 神经 网 络 中 ， 输 入 分 别 为 x, Al x,, 
因此 输入 层 的 输入 个 数 为 2。 输 入 个 数 也 叫 特征 数 或 特 
IEEE. B 3-1 中 网 络 的 输出 为 o， 输 出 层 的 输出 输入 层 
个 数 为 1。 需 要 注意 的 是 ， 我 们 直接 将 图 3-1 中 神经 网 
络 的 输出 o 作为 线性 回归 的 输出 ， 即 = o。 由 于 输入 层 
并 不 涉及 计算 ， 按 照 惯例 ， 图 3-1 所 示 的 神经 网 络 的 层 数 为 1。 所以， 线性 回归 是 一 个 单 层 神 
经 网 络 。 输 出 层 中 负责 计算 o 的 单元 又 叫 神 经 元 。 在 线性 回归 中 ，o 的 计算 依赖 于 x, Al x,. tH 
就 是 说 ， 输 出 层 中 的 神经 元 和 输入 层 中 各 个 输入 完全 连接 。 因 此 ， 这 里 的 输出 层 又 叫 全 连接 层 
(fully-connected layer) 或 稠密 层 dense layer). 


输出 层 





3-1 线性 回归 是 一 个 单 层 神经 网 络 


2， 矢 量 计算 表达 式 
在 模型 训练 或 预测 时 ， 我 们 常常 会 同时 处 理 多 个 数据 样本 并 用 到 失 量 计算 。 在 介绍 线性 回 
归 的 矢量 计算 表达 式 之 前 ， 让 我 们 先 考虑 对 两 个 向 量 相 加 的 两 种 方法 。 
下 面 先 定义 两 个 1 000 维 的 向 量 。 
In [1]: from mxnet import nd 


from time import time 


a = nd.ones(shape=1000) 
b = nd.ones(shape=1000) 


问 量 相 加 的 一 种 方法 是 ， 将 这 两 个 向 量 按 元 素 逐 一 做 标量 加 法 。 


In [2]: start = time() 
c = nd.zeros(shape=1000) 
for i in range(1000): 
c{i] = afi] + DES] 
time() - start 


Out[2]: 0.16967248916625977 


[FF ANY 93 TE» RPS) et BIE: 
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In [3]: start = time() 
d=a+b 
time() - start 


Out[3]: 0.00031185150146484375 

结果 很 明显 ， 后 者 比 前 者 更 省 时 。 因 此 ， 我 们 应 该 尽 可 能 采用 矢量 计算 ， 以 提升 计算 

让 我 们 再 次 回 到 本 节 的 房价 预测 问题 。 如 果 我 们 对 训练 数据 集 里 的 3 个 房屋 样本 〈 索 引 分 
别 为 1、2 和 3) 逐一 预测 价格 ， 将 得 到 


了 0D = xPw +x w, +b 


JO = xy +x w, +b 
jO = xOw, + x9 w, +b 


现在 ， 我 们 将 上 面 3 个 等 式 转化 成 矢量 计算 。 设 


a(l 1 l 
50 xO x% 
A w 
y= jy? X = xi?) x) ó -| 3 
W> 
a (3 3 3 
9) x) xO 


对 3 个 房屋 样本 预测 价格 的 矢量 计算 表达 式 为 y= Xw+b， 其 中 的 加 法 运算 使 用 了 广播 机 
fil] (参见 2.2 节 )。 例 如 : 


In [4]: a = nd.ones(shape=3) 
b = 10 
a+b 

Out[4]: 


~ ackt. 2264 
<NDArray 3 @cpu(0)> 


广义 上 讲 ， 当 数据 样本 数 为 4， 特征 数 为 & 时 ， 线 性 回归 的 矢量 计算 表达 式 为 
y=Xw+b 


其 中 模型 输出 了 e 尺 “…， 批 量 数据 样本 特征 X eR”, WE weR”, 偏差 be R. FAH, Hee 
数据 样本 标签 ye R”. WRR O =[w,w,,b]'， 我 们 可 以 重 写 损失 函数 为 
40) == - 9)" G-I) 
n 
小 批量 随机 梯度 下 降 的 迭代 步骤 将 相应 地 改写 为 
0-0-7 Vel (0) 
|B| ieB 


其 中 梯度 是 损失 有 关 3 个 为 标量 的 模型 参数 的 偏 导数 组 成 的 向 量 : 
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OL” (w, w, b) 


Ow mpa | 
y0 i x) (xX w+ aS m +b =y) xf? 
LS (W, Wo, TOP: Ma e i 
OF (m, Ww, b) aie x) (xO, + xh? w, +b—-y) u xf) (p = y)) 
2 
(i) (i) 
) Xp m +X’ w +b-y 
al (w, Wy, b) ] ] 2 2 


Ob 


V 0 (0) = 
(i) 
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和 大 多 数 深度 学 习 模 型 一 样 ， 对 于 线性 回归 这 样 一 种 单 层 神经 网 络 ， 它 的 基本 要 素 包 括 模 
型 、 训 练 数 据 、 损 失 函 数 和 优化 算法 。 

既 可 以 用 神经 网 络 图 表示 线性 回归 ， 又 可 以 用 矢量 计算 表示 该 模型 。 

应 该 尽 可 能 采用 矢量 计算 ， 以 提升 计算 效率 。 


使 用 其 他 包 ( 如 NumPy) 或 其 他 编程 语言 (如 MATLAB )， 比 较 相 加 两 个 向 量 的 两 种 方法 的 运 
行 时 间 。 





3.2 ”线性 回归 的 从 零 开 始 实现 


在 了 解 了 线性 回归 的 背景 知识 之 后 ， 现 在 我 们 可 以 动手 实现 它 了 。 尽 OGM 
管 强大 的 深度 学 习 框架 可 以 减少 大 量 重复 性 工作 ， 但 若 过 于 依赖 它 提供 的 “em 
便利 ， 会 导致 我 们 很 难 深 入 理解 深度 学 习 是 如 何 工作 的 。 因 此 ， 本 节 将 介 ” 叶 
绍 如 何 只 利用 NDArray 和 autograd 来 实现 一 个 线性 回归 的 训练 。 


首先 ， 寻 入 本 节 中 实验 所 需 的 包 或 模块 ， 其 中 的 matplotlib 包 可 用 于 作 图 ， 且 设置 成 阴 
入 显示 。 









In [1]: %matplotlib inline 
from IPython import display 
from matplotlib import pyplot as plt 
from mxnet import autograd, nd 
import random 


3.2.1 生成 数据 集 


我 们 构造 一 个 简单 的 人 工 训 练 数据 集 ， 它 可 以 使 我 们 能 够 直观 比较 学 到 的 参数 和 真实 的 模 
型 参数 的 区 别 。 设 训练 数据 集 样 本 数 为 1000， 输 入 个 数 〈 特 征 数 ) 为 2。 给 定 随 机 生成 的 批量 
样本 特征 Xe 及 "2 ， 我 们 使 用 线性 回归 模型 真实 权重 w =[2,-3.4] ”和 偏差 p=4.2， 以 及 一 个 
随机 噪声 项 e 来 生成 标签 


3.2 ”线性 回归 的 从 零 开 始 实现 。31，。 


y=Xw+b+e 


其 中 噪声 项 e 服从 均值 为 0、 标准 差 为 0.01 WESDE. RARR T BR POR MNF. 
下 面 ， 让 我 们 生成 数据 集 。 


In [2]: num_inputs = 2 
num_exampLles = 1000 
true_w = [2, -3.4] 
true_b = 4.2 
features = nd.random.normal(scale=1, shape=(num_examples, num_inputs) ) 
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b 
labels += nd.random.normal(scale=0.01, shape=lLabels. shape) 


JE, features 的 每 一 行 是 一 个 长 度 为 2 WHE, m labels 的 每 一 行 是 一 个 长 度 为 1 
的 向 量 (标量 )。 


In [3]: features[0], labels[0] 


Out{[3]: ¢ 
[2.2122064 0.7740038 | 
<NDArray 2 @cpu(0)>, 
[6.000587 | 
<NDArray 1 @cpu(0)>) 


通过 生成 第 二 个 特征 features[:, 1] 和 标签 labels 的 散 点 图 ， 可 以 更 直观 地 观察 两 者 
间 的 线性 关系 。 


In [4]: def use_svg_display(): 
# 用 矢量 图 显示 
display.set_matplotlib_formats('svg') 


def set_figsize(figsize=(3.5, 2.5)): 
use_svg_display() 
# 设置 图 的 尺寸 


plt.rcParams['figure.figsize'] = figsize 


set_figsize() 
plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1); # 加 分 号 只 显示 图 
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我 们 将 上 面 的 ptt 作 图 函数 以 及 use_svg_dispLay 函数 和 set_figsize 图 数 定 义 在 
d2Lzh 包 里 。 以 后 在 作 图 时 ， 我 们 将 直接 调用 d2Lzh.pLt。 由 于 plt 在 d2Lzh 包 中 是 一 个 全 局 
变量 ， 我 们 在 作 图 前 只 需要 调用 d2Lzh.set_figsize() 即 可 打印 矢量 图 并 设置 图 的 尺寸 。 


3.2.2 ” 读 取 数据 集 


在 训练 模型 的 时 候 ， 我 们 需要 裔 历数 据 集 并 不 断 读 取 小 批量 数据 样本 。 这 里 我 们 定义 一 个 
函数 : 它 每 次 返回 batch size WEK) 个 随机 样本 的 特征 和 标签 。 


In [5]: # 本 函数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
def data_iter(batch_size, features, labels): 

num_examples = len(features) 

indices = list(range(num_examples)) 

random.shuffle(indices) # 样本 的 读 取 顺序 是 随机 的 

for i in range(0, num_examples, batch_size): 
j = nd.array(indices[i: min(i + batch_size, num_examplLes) ] ) 
yield features.take(j), labels.take(j) # take 函数 根据 索引 返回 对 应 元 素 


让 我 们 读 取 第 一 个 小 批量 数据 样本 并 打印 。 每 个 批量 的 特征 形状 为 (10, 2)， 分 别 对 应 批量 
大 小 和 输入 个 数 ;， 标签 形状 为 批量 大 小 。 
In [6]: batch_size = 10 
for X, y in data_iter(batch_size, features, labels): 


print(X, y) 
break 


[{ 1.0876857 -1.7063738 ] 
[-©.51129895 0.46543437] 
[> 0. 1533563 ~=0. 735794: 7] 
[ 0.3717077 0.9300072 | 
[ 1.0115732 -0.83923554] 
[ 1.9738784 0.81172043] 
[(~14.7721029 -0.45138445] 
[ ©.7465509 -0.5054337 ] 
[-0.52480155 0.3005414 | 
[ 0.5583534 -0.6039059 |] 


<NDArray 10x2 @cpu(0)> 

[12.174357 1.6139998 6.9870367 1.626053. 9.06552 543893285 
2 .1933131 7.4612175 2.138387 0 TORONS | 

<NDArray 10 @cpu(0)> 


3.2.3 ”初始 化 模型 参数 
我 们 将 权重 初始 化 成 均值 为 0、 标准 差 为 0.01 的 正 态 随机 数 ， 偏 差 则 初始 化 成 0。 


3.2 ”线性 回归 的 从 零 开 始 实现 + 33° 


In [7]: w = nd.random.normal(scale=0.01, shape=(num_inputs, 1)) 
b = nd.zeros(shape=(1,)) 
之 后 的 模型 训练 中 ， 需 要 对 这 些 参 数 求 梯度 来 迭代 参数 的 值 ， 因 此 我 们 需要 创建 它们 的 
梯度 。 


In [8]: w.attach_grad() 
b.attach_grad() 


3.2.4 ”定义 模型 
下 面 是 线性 回归 的 矢量 计算 表达 式 的 实现 。 我 们 使 用 dot 函数 做 矩阵 乘法 。 


In [9]: def linreg(X, w, b): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
return nd.dot(X, w) + b 


3.2.5 ”定义 损失 函数 


我 们 使 用 3.1 节 描 述 的 平方 损失 来 定义 线性 回归 的 损失 函数 。 在 实现 中 ， 我 们 需要 把 真实 
值 y 变形 成 预测 值 y_hat 的 形状 。 以 下 函数 返回 的 结果 也 将 和 y_hat 的 形状 相同 。 


In [10]: def squared_loss(y_hat, y): # 本 消 数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2 


3.2.6 ”定义 优化 算法 

以 下 的 sgd 函数 实现 了 3.1 节 中 介绍 的 小 批量 随机 梯度 下 降 算 法 。 它 通过 不 断 友 代 模型 参 
数 来 优化 损失 函数 。 这 里 目 动 求 梯度 模块 计算 得 来 的 梯度 是 一 个 批量 样本 的 梯度 和 。 我 们 将 它 
除 以 批量 大 小 来 得 到 平均 值 。 

In [11]: def sgd(params, lr, batch_size): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


for param in params: 
param[:] = param - lr * param.grad / batch_size 


3.2.7 ”训练 模型 


在 训练 中 ， 我 们 将 多 次 迭代 模型 参数 。 在 每 次 迭代 中 ， 我 们 根据 当前 读 取 的 小 批量 数据 样 
本 (特征 Xx 和 标签 y)， 通 过 调用 反 向 函数 backward 计算 小 批量 随机 梯度 ， 并 调用 优化 算法 
sed 迭代 模型 参数 。 由 于 我 们 之 前 设 批量 大 小 batch_size 为 10， 每 个 小 批量 的 损失 1 的 形状 
为 (10, 1)。 回 忆 一 下 2.3 节 。 由 于 变量 1 并 不 是 一 个 标量 ， 运 行 l.backward() 将 对 中 元 素 
求 和 得 到 新 的 变量 ， 再 求 该 变量 有 关 模 型 参数 的 梯度 。 


在 一 个 和 迭代 周期 (epoch) 中 ， 我 们 将 完整 遍历 一 志 data_iter 函数 ， 并 对 训练 数据 集中 
所 有 样本 都 使 用 一 次 (假设 样本 数 能 够 被 批量 大 小 整除 )。 这 里 的 迭代 周期 个 数 num_epochs 
和 学 习 率 Lr 都 是 超 参数 ， 分 别 设 3 和 0.03。 在 实践 中 ， 大 多 超 参 数 都 需要 通过 反复 试 错 来 不 
靳 调节 。 虽 然 迭 代 周 期 数 设 得 越 大 模型 可 能 越 有 效 ， 但 是 训练 时 间 可 能 过 长 。 我 们 会 在 后 面 第 
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7 章 中 详细 介绍 学 习 率 对 模型 的 影响 。 


In {12]: lr = 0.03 
num_epochs = 3 
net = Linreg 
loss = squared_loss 


for epoch in range(num_epochs): # 训练 模型 一 共 需 要 num_epochs 个 迭代 周期 
# ”在 每 一 个 迭代 周期 中 ， 会 使 用 训 骑 激 所 集中 所 有 样本 一 次 (ORAS EER) 。X 
# 和 y 分 别 是 小 批量 样本 的 特征 和 标签 
for X, y in data_iter(batch_size, features, labels): 
with autograd.record(): 
l = loss(net(X, w, b), y) # 1 是 有 关 小 批量 X 和 y 的 损失 
L.backward() # 小 批量 的 损失 对 模型 参数 求 梯度 
sgd([w, b], lr, batch_size) # 使 用 小 批量 随机 梯度 下 降 迭 代 模型 参数 
train_l = loss(net(features, w, b), labels) 
print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy())) 


epoch 1, loss 0.040436 
epoch 2, loss 0.000155 
epoch 3, loss 0.000050 


训练 完成 后 ， 我 们 可 以 比较 学 到 的 参数 和 用 来 生成 训练 集 的 真实 参数 。 它 们 应 该 很 接近 。 


In [13]: true_w, w 


OGthisd: CE 73.41, 
[[ 1.9996936] 
[-3.3997262] ] 
<NDArray 2x1 @cpu(0)>) 


In [14]: true_b, b 


Out[14]: (4.2, 
[4.199704] 
<NDArray 1 @cpu(0)>) 


小 结 
e 可 以 看 出 ， 仅 使 用 NDArray 和 autograd 模块 就 可 以 很 容易 地 实现 一 个 模型 。 接 下 来 ， 本 
书 会 在 此 基础 上 描述 更 多 深度 学 习 模 型 ， 并 介绍 怎样 使 用 更 简洁 的 代码 ( 见 3.3 节 ) 来 实现 


它们 。 


练习 
(1) 为 什么 squared_Loss 函数 中 需要 使 用 reshape HA ? 
(2) 尝试 使 用 不 同 的 学 习 率 ， 观 察 损 失 函 数值 的 下 降 快 慢 。 
(3) 如 果 样 本 个 数 不 能 被 批量 大 小 整除 ，data_iter 函数 的 行为 会 有 什么 变化 ? 
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3.3 线性 回归 的 简洁 实现 

四 。 

随 着 深度 学 习 框架 的 发 展 ， 开 发 深度 学 习 应 用 变 得 越 来 越 便利 。 实 践 A 

中 ， 我 们 通常 可 以 用 比 3.2 节 更 简洁 的 代码 来 实现 同样 的 模型 。 在 本 节 中 ， be 
我 们 将 介绍 如 何 使 用 MXNet 提供 的 Gluon 接口 更 方便 地 实现 线性 回归 的 | 

训练 。 













3.3.1 生成 数据 集 
我 们 生成 与 3.2 节 中 相同 的 数据 集 。 其 中 features 是 训练 数据 特征 ，LabetLs 是 标签 。 


In [1]: from mxnet import autograd, nd 


num_inputs = 2 
num_exampLles = 1000 

true_w = [2, -3.4] 

true_b = 4.2 

features = nd.random.normal(scale=1, shape=(num_examples, num_inputs) ) 
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b 
labels += nd.random.normal(scale=0.01, shape=Labels.shape) 


3.3.2 读 取 数据 集 


Gluon 提供 了 data 包 来 读 取 数据 。 由 于 data 常用 作 变 量 名 ， 我 们 将 导入 的 data 模块 用 
添加 了 Gluon 前 字母 的 假名 gdata RÈ. EE- KEAR, RATEBEER S 10 个 数据 样 
本 的 小 批量 。 


In [2]: from mxnet.gluon import data as gdata 


batch_size = 10 

# 将 训练 数据 的 特征 和 标签 组 合 

dataset = gdata.ArrayDataset(features, labels) 

# 随机 读 取 小 批量 

data_iter = gdata.DataLoader(dataset, batch_size, shuffle=True) 


这 里 data_iter 的 使 用 与 3.2 节 中 的 一 样 。 让 我 们 读 取 并 打印 第 一 个 小 批量 数据 样本 。 


In [3]: for X, y in data_iter: 
print(X, y) 
break 


[[-1.4011667 -1.108803 | 
[-0.4813231 0.5334126 | 
[ 0.57794803 0.72061497] 
[ 1.1208912 1.2570045 | 
[-0.2504259 -0.45037505] 
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[ 0.08554042 0.5336134 | 
[ 0.6347856 1.5795654 | 
[-2.118665 3.3493772 | 
[ 1.1353118 0.99125063] 


[-0.4814555 -0.91107726] ] 
<NDArray 10x2 @cpu(0)> 
[ 5.16208 1.4169512 2.9065104 2.164263 i 
2.558468 @.09139667 -11.421704 3.1042643 6.332793 | 
<NDArray 10 @cpu(0)> 


3.3.3 ”定义 模型 


在 3.2 节 从 零 开始 的 实现 中 ， 我 们 需要 定义 模型 参数 ， 并 使 用 它们 一 步 步 朱 述 模型 是 怎样 
计算 的 。 当 模型 结构 变 得 更 复杂 时 ， 这 些 步骤 将 变 得 更 烦琐 。 其 实 ，Gluon 提供 了 大 量 预定 义 
的 层 ， 这 使 我 们 只 需 关 注 使 用 哪些 层 来 构造 模型 。 下 面 将 介绍 如 何 使 用 Gluon 更 简洁 地 定义 线 
性 回归 。 


首先 ， 导 入 nn 模块 。 实 际 上 ,“nn” 是 neural networks 〈 神 经 网 络 ) 的 缩写 。 顾 名 思 义 ， 
该 模块 定义 了 大 量 神经 网 络 的 层 。 我 们 先 定义 一 个 模型 变量 net， 它 是 一 个 Sequential 实 
例 。 在 Gluon 中 ，Sequential 实例 可 以 看 作 是 一 个 串联 各 个 层 的 容器 。 在 构造 模型 时 ， 我 们 
在 该 容器 中 依次 添加 层 。 当 给 定 输入 数据 时 ， 容 器 中 的 每 一 层 将 依次 计算 并 将 输出 作为 下 一 
层 的 输入 。 


In [4]: from mxnet.gluon import nn 


net = nn.Sequential() 


回顾 图 3-1 中 线性 回归 在 神经 网 络 图 中 的 表示 。 作 为 一 个 单 层 神经 网 络 ， 线 性 回归 输 
出 层 中 的 神经 元 和 输入 层 中 各 个 输入 完全 连接 。 因 此 ， 线 性 回归 的 输出 层 又 叫 全 连接 层 。 
在 Gluon 中 ， 全 连接 层 是 一 个 Dense 实例 。 我 们 定义 该 层 输 出 个 数 为 1。 


In [5]: net.add(nn.Dense(1) ) 


值得 一 提 的 是 ， 在 Gluon 中 我 们 无 须 指定 每 一 层 输入 的 形状 ， 例 如 线性 回归 的 输入 个 数 。 
当 模 型 得 到 数据 时 ， 例 如 后 面 执 行 net(X) 时 ， 模 型 将 自动 推断 出 每 一 层 的 输入 个 数 。 我 们 将 
在 第 4 章 详细 介绍 这 种 机 制 。Gluon 的 这 一 设计 为 模型 开发 带 来 便利 。 


3.3.4 ”初始 化 模型 参数 


在 使 用 net 前 ， 我 们 需要 初始 化 模型 参数 ， 如 线性 回归 模型 中 的 权重 和 偏差。 我 们 
从 MXNet 导入 init 模块 。 该 模块 提供 了 模型 参数 初始 化 的 各 种 方法 。 这 里 的 init 是 
initializer 的 缩写 形式 。 我 们 通过 init.Normal(sigma=0.01) 指定 权重 参数 每 个 元 素 将 在 初 
始 化 时 随机 采样 于 均值 为 0、 标准 差 为 0.01 的 正 态 分 布 。 偏 差 参 数 默认 会 初始 化 为 零 。 
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In [6]: from mxnet import init 


net. initialize(init.Normal(sigma=0.01) ) 


3.3.5 ”定义 损失 函数 


在 Gluon 中 ，Loss 模块 定义 了 各 种 损失 函数 。 我 们 用 假名 gloss 代替 导入 的 loss 模块 ， 
并 直接 使 用 它 提 供 的 平方 损失 作为 模型 的 损失 函数 。 


In [7]: from mxnet.gluon import loss as gloss 


loss = gloss.L2Loss() # 平方 损失 又 称 L2 范 数 损 失 


3.3.6 ”定义 优化 算法 

同样 ， 我 们 也 无 须 实现 小 批量 随机 梯度 下 降 。 在 导入 Gluon 后 ， 我 们 创建 一 个 Trainer 
实例 ， 并 指定 学 习 率 为 0.03 的 小 批量 随机 梯度 下 降 (sed) 为 优化 算法 。 该 优化 算法 将 用 来 
迭代 net 实例 所 有 通过 add 函数 藤 套 的 层 所 包含 的 全 部 参数 。 这 些 参 数 可 以 通过 collect_ 
params 图 数 获取 。 


In [8]: from mxnet import gluon 


trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.03}) 


3.3.7 IARE 


在 使 用 Gluon 训练 模型 时 ， 我 们 通过 调用 Trainer 实例 的 step 函数 来 迭代 模型 参数 。3.2 
节 中 我 们 提 到 ， 由 于 变量 1 是 长 度 为 batch_size 的 一 维 NDArray， 执 行 L.backward() 等 价 
于 执行 L.sum() .backward() 。 按 照 小 批量 随机 梯度 下 降 的 定义 ， 我 们 在 step 函数 中 指明 批 
量 大 小 ， 从 而 对 批量 中 样本 梯度 求 平均 。 


In [9]: num_epochs = 3 
for epoch in range(1, num_epochs + 1): 

for X, y in data_iter: 

with autograd.record(): 
l = loss(net(X), y) 

Ll. backward ( ) 
trainer.step(batch_size) 

l = loss(net(features), Labels) 

print('epoch %d, loss: %f' % (epoch, 1.mean().asnumpy())) 


epoch 1, loss: 0.040309 
epoch 2, loss: 0.000153 
epoch 3, loss: 0.000050 


下 面 我 们 分 别 比 较 学 到 的 模型 参数 和 真实 的 模型 参数 。 我 们 从 net 获得 需要 的 层 ， 并 访问 
其 权重 (weight) 和 偏差 (bias)。 学 到 的 模型 参数 和 真实 的 参数 很 接近 。 
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In [10]: dense = net[0] 
true_w, dense.weight.data() 


Out[10]: ([2, -3.4], 
[[ 1.9996833 -3.3997345] ] 
<NDArray 1x2 @cpu(0)>) 


In [11]: true_b, dense.bias.data() 
Out(il]: (4.2; 


[4.1996784] 
<NDArray 1 @cpu(0)>) 


使 用 Gluon 可 以 更 简洁 地 实现 模型 。 

在 Gluon 中 ，data 模块 提供 了 有 关 数 据 处 理 的 工具 ，nn 模块 定义 了 大 量 神经 网 络 的 层 ， 
loss 模块 定义 了 各 种 损失 函数 。 

MXNet 的 initializer 模块 提供 了 模型 参数 初始 化 的 各 种 方法 。 


练习 
(1) 如 果 将 1 = loss(net(X), y) 替换 成 人 = Loss(net(X) ，y) .mean()， 我 们 需要 将 
trainer.step(batch_size) 相应 地 改 成 rainer.step(1)。 这 是 为 什么 呢 ? 
(2) 查阅 MXNet 文档 ， 看 看 gLuon loss 和 init 模块 里 提供 了 哪些 损失 函数 和 初始 化 方法 。 
(3) 如 何 访问 dense.weight 的 梯度 ? 





3.4 softmax 回 归 


前 几 节 介绍 的 线性 回归 模型 适用 于 输出 为 连续 值 的 情景 。 在 男 一 类 情 
景 中 ， 模 型 输出 可 以 是 一 个 像 图 像 类 别 这 样 的 离散 值 。 对 于 这 样 的 离散 
值 预 测 问 题 ， 我 们 可 以 使 用 诸如 softmax 回归 在 内 的 分 类 模型 。 和 线性 回 
归 不 同 ，softmax 回归 的 输出 单元 从 一 个 变 成 了 多 个 ， 且 引入 了 softmax 
运算 使 输出 更 适合 离散 值 的 预测 和 训练 。 本 节 以 softmax 回归 模型 为 例 ， 
介绍 神经 网 络 中 的 分 类 模型 。 





3.4.1 分 类 问题 


让 我 们 考虑 一 个 简单 的 图 像 分 类 问题 ， 其 输入 图 像 的 高 和 宽 均 为 2 像素 ， 且 色彩 为 灰 度 。 
这 样 每 个 像素 值 都 可 以 用 一 个 标量 表示 。 我 们 将 图 像 中 的 4 像素 分 别 记 为 为, 姑姑 。 假 设 训 
练 数据 集中 图 像 的 真实 标签 为 狗 、 猫 或 鸡 〈 假 设 可 以 用 4 像素 表示 出 这 3 种 动物 )， 这 些 标签 
分 别 对 应 离散 值 Vi Yo» V30 
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我 们 通常 使 用 离散 的 数值 来 表示 类 别 ， 例 如 =1,y,=2,y3=3。 如 此 ， 一 张 图 像 的 标签 
为 1、2 和 3 这 3 个 数值 中 的 一 个 。 虽 然 我 们 仍然 可 以 使 用 回归 模型 来 进行 建 模 ， 并 将 预测 值 
束 近 定点 化 到 1、2 和 3 这 3 个 离散 值 之 一 ， 但 这 种 连续 值 到 离散 值 的 转化 通常 会 影响 到 分 类 
质量 。 因 此 我 们 一 般 使 用 更 加 适合 离散 值 输出 的 模型 来 解决 分 类 问题 。 


3.4.2 softmax 回 归 模 型 


softmax 回归 和 线性 回归 一 样 将 输入 特征 与 权重 做 线性 又 加 。 与 线性 回归 的 一 个 主要 不 同 
在 于 ，softmax 回归 的 输出 值 个 数 等 于 标签 里 的 类 别 数 。 因 为 一 共有 4 种 特征 和 3 种 输出 动物 
类 别 ， 所 以 权重 包含 12 个 标量 ( 带 下 标的 w)、 偏 差 包 含 3 个 标量 ( 带 下 标的 5)， 且 对 每 个 
输入 计算 01, 02, 03 这 3 个 输出 : 


O) = XW + XW + X3W31 + X4W41 +b) 
03 = 为 Wi2 十 X2W22 + X3W32 十 X4W42 +b 
03 = XW3 十 XD03 十 23W33 + X4W43 + b3 
3-2 用 神经 网 络 图 描绘 了 上 面 的 计算 。softmax 回归 同 线 性 回归 一 样 ， 也 是 一 个 单 层 神 
经 网 络 。 由 于 每 个 输出 ol, 02, 03 的 计算 都 要 依赖 于 所 有 的 输入 Xis X2, X3, X4, softmax 回归 的 输 
出 层 也 是 一 个 全 连接 层 。 


输出 层 


输入 层 





3-2 softmax 回归 是 一 个 单 层 神经 网 络 


softmax 运 算 


既然 分 类 问题 需要 得 到 离散 的 预测 输出 ， 一 个 简单 的 办 法 是 将 输出 值 0; 当 作 预 测 类 别 
是 i 的 置信 和 度 ， 并 将 值 最 大 的 输出 所 对 应 的 类 作为 预测 输出 ， 即 输出 argmax; 0;。 例 如 ， 如 果 
01, 02, 03 分 列 为 0.1,10, 0.1， 由 于 0, 最 大 ， 那 么 预测 类 别 为 2， 其 代表 猫 。 


然而 ， 直 接 使 用 输出 层 的 输出 有 两 个 问题 。 一 方面 ， 由 于 输出 层 的 输出 值 的 范围 不 确定 ， 
我 们 难以 直观 上 判断 这 些 值 的 意义 。 例 如 ， 刚 才 举 的 例子 中 的 输出 值 10 表示 “很 置信 ”图 像 
类 别 为 猫 ， 因 为 该 输出 值 是 其 他 两 类 的 输出 值 的 100 倍 。 但 如 果 ol = os =10 ， 那 么 输出 值 10 
却 又 表示 图 像 类 别 为 猫 的 概率 很 低 。 另 一 方面 ， 由 于 真实 标签 是 离散 值 ， 这 些 离散 值 与 不 确定 
范围 的 输出 值 之 间 的 误差 难以 衡量 。 


softmax 运算 解决 了 以 上 两 个 问题 。 它 通过 下 式 将 输出 值 变换 成 值 为 正 且 和 为 1 的 概率 
分 布 ; 
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VY» Y2, Yz = Softmax(o,, 07, 03) 
其 中 


_ exp(o) ~ _ exp(0,) EO 


| 三 = — 


3 ” 72 3 oo 3 
>, epo) 2, explo) >, explo) 


容易 看 出 A+A +A =l HOS D, P Y Sl, AY. 32,93 EAEEREN AR, 
如 果 py, =0.8， 不 管 为 和 为 的 值 是 多 少 ， 我 们 都 知道 图 像 类 别 为 猫 的 概率 是 80%。 此 外 ， 我 
们 注意 到 


argmax o; = argmax y; 
i i 


因此 softmax 运算 不 改变 预测 类 别 输出 。 


3.4.3 ” 单 样 本 分 类 的 矢量 计算 表达 式 


为 了 提高 计算 效率 ， 我 们 可 以 将 单 样 本 分 类 通过 矢量 计算 来 表达 。 在 上 面 的 图 像 分 类 问题 
中 ， 假 设 softmax 回归 的 权重 和 偏差 参数 分 别 为 
Wi W2 M3 


Wa, Wa Wy 


ir re he b=[b b, b] 
Wa, Waz Waz 
设 高 和 宽 分 别 为 2 个 像素 的 图 像样 本 i 的 特征 为 
x =| xf? x) x | 
输出 层 的 输出 为 
of =| of” of) of? | 
预测 为 狗 、 猫 或 鸡 的 概率 分 布 为 
5 =[ 9 P 50] 
softmax 回归 对 样本 i 分 类 的 矢量 计算 表达 式 为 


0 = x°W +b 


jp = softmax(o ) 


3.4.4 ”小 批量 样本 分 类 的 矢量 计算 表达 式 


为 了 进一步 提升 计算 效率 ， 我 们 通常 对 小 批量 数据 做 矢量 计算 。 广 义 上 讲 ， 给 定 一 个 小 批 
量 样本 ， 其 批量 大 小 为 n， 输 入 个 数 ( 特 征 数 ) 为 &， 输 出 个 数 〈 类 别 数 ) 为 q。 设 批量 特征 
H X eR”. (x softmax 回归 的 权重 和 偏差 参数 分 别 为 所 eRR”*9 和 be 民 “Y。softmax 回归 的 


3.4 softmax 回归 。41，。 


和 天 量 计算 表达 式 为 


O= XW+b 
Y = softmax(O) 
其 中 的 加 法 运算 使 用 了 广播 机 制 ，O, 疡 < 及 we 且 这 两 个 矩阵 的 第 i 行 分 别 为 样本 i 的 输出 o 
和 概率 分 布 7. 


3.4.5 ZLM RAR 


前 面 提 到 ， 使 用 softmax 运算 后 可 以 更 方便 地 与 离散 标签 计算 误差 。 我 们 已 经 知道 ， 
softmax 运算 将 输出 变换 成 一 个 合法 的 类 别 预 测 分 布 。 实 际 上 ， 真 实 标签 也 可 以 用 类 别 分 布 表 
ik: 对 于 样本 i， 我 们 构造 向 量 y eR?， 使 其 第 yO (样本 类 别 的 离散 数值 ) 个 元 素 为 1， 
其 余 为 0。 这 样 我 们 的 训练 目标 可 以 设 为 使 预测 概率 分 布 FO 尽 可 能 接近 真实 的 标签 概率 分 布 
y, 

我 们 可 以 像 线性 回归 那样 使 用 平方 损失 函数 7 一 ylYW2。 然 而 ， 想 要 预测 分 类 结果 
正确 ， 我 们 其 实 并 不 需要 预测 概率 完全 等 于 标签 概率 。 例 如 ， 在 图 像 分 类 的 例子 里 ， 如 果 
yO =3， 那 么 我 们 只 需要 I? 比 其 他 两 个 预测 值 并 和 SS? 大 就 行 了 。 即 使 I 值 为 0.6， 不 管 
其 他 两 个 预测 值 为 多 少 ， 类 别 预测 均 正 确 。 而 平方 损失 则 过 于 严格 ， 例 如 ? = 加) = 0.2 比 
?和 =0, $= 0.4 的 损失 要 小 很 多 ， 虽 然 两 者 都 有 同样 正确 的 分 类 预测 结果 。 

改善 上 述 问题 的 一 个 方法 是 使 用 更 适合 衡量 两 个 概率 分 布 差异 的 测量 函数 。 其 中 ， 交 又 炉 
(cross entropy) 是 一 个 常用 的 衡量 方法 : 


HOP, 3) =- yP log 3” 
j=l 


其 中 带 下 标的 yO 是 向 量 y 中 非 0 即 1 的 元 素 ， 需 要 注意 将 它 与 样本 i 类 别 的 离散 数值 ， 即 
不 带 下 标的 y@ 区 分 。 在 上 式 中 ， 我 们 知道 向 量 y 中 只 有 第 y ATKIN 为 1， 其 余 全 为 0， 
于 是 AY, GH) =—log ry. WREN, ZOU A ON ESE ER, HARER 
足够 大 ， 就 可 以 确保 分 类 结果 正确 。 当 然 ， 遇 到 一 个 样本 有 多 个 标签 时 ， 例 如 图 像 里 含有 不 上 
一 个 物体 时 ， 我 们 并 不 能 做 这 一 步 简 化 。 但 即便 对 于 这 种 情况 ， 交 叉 粹 同样 只 关心 对 图 像 中 出 
现 的 物体 类 别 的 预测 概率 。 


(LE WARE REARS n, SRA BARGE ON 
ie (i) ~) 
4@)=5 DAU ,$®) 


其 中 @RRMBSA. ARM, WERNERA — ARE, MA LR T LS me 
4(@) = —(/n) Ej log 4。 从 另 一 个 角度 来 看 ， 我 们 知道 最 小 化 4(@) 等 价 于 最 大 化 exp(- n€(@)) = 
SO, ， 即 最 小 化 交叉 炳 损失 函数 等 价 于 最 大 化 训练 数据 集 所 有 标签 类 别 的 联合 预测 概率 
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3.4.6 ”模型 预测 及 评价 


在 训练 好 softmax 回归 模型 后 ， 给 定 任 一 样本 特征 ， 就 可 以 预测 每 个 输出 类 别 的 概率 。 通 
常 ， 我 们 把 预测 概率 最 大 的 类 别 作为 输出 类 别 。 如 果 它 与 真实 类 别 〈 标 签 ) 一 致 ， 说 明 这 次 预 
测 是 正确 的 。 在 3.6 节 的 实验 中 ， 我 们 将 使 用 准确 率 (accuracy) 来 评价 模型 的 表现 。 它 等 于 
正确 预测 数量 与 总 预测 数量 之 比 。 


softmax 回归 适用 于 分 类 问题 。 它 使 用 softmax 运算 输出 类 别 的 概率 分 布 。 
softmax 回归 是 一 个 单 层 神经 网 络 ， 输 出 个 数 等 于 分 类 问题 中 的 类 别 个 数 。 
RAGES SHANE EDA HY ZF. 





3.5 图 像 分 类 数据 集 ( Fashion—MNIST ) 


在 介绍 softmax 回归 的 实现 前 我 们 先 引 入 一 个 多 类 图 像 分 类 数据 集 。 它 
将 在 后 面 的 章节 中 被 多 次 使 用 ， 以 方便 我 们 观察 比较 算法 之 间 在 模型 精度 
和 计算 效率 上 的 区 别 。 图 像 分 类 数据 集中 最 常用 的 是 手写 数字 识别 数据 集 
MNIST。 但 大 部 分 模型 在 MNIST 上 的 分 类 精度 都 超过 了 95%。 为 了 更 直 = 
观 地 观察 算法 之 间 的 差异 ， 我 们 将 使 用 一 个 图 像 内 容 更 加 复杂 的 Fashion-MNIST 数据 集 O, 





扫 码 直达 讨论 区 





3.5.1 获取 数据 集 
首先 导入 本 节 需 要 的 包 或 模块 。 


In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet.gluon import data as gdata 
import sys 
import time 


下 面 ， 我 们 通过 Gluon 的 data 包 来 下 载 这 个 数据 集 。 第 一 次 调用 时 会 自动 从 网 上 获取 数 
据 。 我 们 通过 参数 train 来 指定 获取 训练 数据 集 或 测试 数据 集 (testing data set)。 测 试 数据 集 
{HY Mix (testing set) ， 只 用 来 评价 模型 的 表现 ， 并 不 用 来 训练 模型 。 


In [2]: mnist_train = gdata.vision.FashionMNIST(train=True) 
mnist_test = gdata.vision.FashionMNIST(train=False) 


3.5 图像 分 类 数据 集 (Fashion-MNIST) + 43° 


训练 集中 和 测试 集中 的 每 个 类 别 的 图 像 数 分 别 为 6 000 和 1000。 因 为 有 10 个 类 别 ， 所 以 
训练 集 和 测试 集 的 样本 数 分 别 为 60 000 和 10 000. 


In [3]: len(mnist_train) , Len(mnist_test) 


Out[3]: (60000, 10000) 


我 们 可 以 通过 方 括号 [] 来 访问 任意 一 个 样本 ， 下 面 获取 第 一 个 样本 的 图 像 和 标签 。 


In [4]: feature, label = mnist_train[0] 


变量 feature 对 应 高 和 宽 均 为 28 像素 的 图 像 。 每 个 像素 的 数值 为 0 到 255 之 间 8 位 无 符 
号 整数 (uint8)。 它 使 用 三 维 的 NDArray 存储 ， 其 中 的 最 后 一 维 是 通道 数 。 因 为 数据 集中 是 
灰 度 图 像 ， 所 以 通道 数 为 1。 为 了 表述 简洁 ， 我 们 将 高 和 宽 分 别 为 六 和 w 像素 的 图 像 的 形状 记 
为 hxw 或 (h, w)。 


In [5]: feature.shape, feature.dtype 
Out[5]: ((28, 28, 1), numpy.uint8) 


图 像 的 标签 使 用 NumPy 的 标量 表示 。 它 的 类 型 为 32 位 整数 (int32)。 


In [6]: label, type(label), label.dtype 


Out[6]: (2, numpy.int32, dtype('int32')) 


Fashion-MNIST 中 一 共 包 括 了 10 AJ, AHA t-shirt (T WL), trouser (裤子 )、 
pullover (#%). dress (连衣裙 )、coat (4 Æ), sandal (凉鞋 )、shirt (衬衫 )、 
sneaker (运动 鞋 )、bag (41) 和 ankle boot (短靴 )。 以 下 函数 可 以 将 数值 标签 转 成 相应 
的 文本 标签 。 


In [7]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def get_fashion_mnist_labels(labels) : 
text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 
'sandal', 'shirt', 'sneaker', 'bag', ‘ankle boot'] 
return [text_labels[int(i)] for i in labels] 


下 面 定 义 一 个 可 以 在 一 行 里 画 出 多 张 图 像 和 对 应 标签 的 函数 。 
In [8]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def show_fashion_mnist(images, labels): 

d2l.use_svg_dispLlay() 

# 这 里 的 _ 表 示 我 们 忽略 (不 使 用 ) 的 变量 

_, figs = d2l.plt.subplots(1, len(images), figsize=(12, 12)) 

for f, img, lbl in zip(figs, images, labels): 
f.imshow(img.reshape((28, 28)).asnumpy()) 
f.set_title(lbl) 
f.axes.get_xaxis().set_visible(False) 
f.axes.get_yaxis().set_visible(False) 


现在 ， 我 们 看 一 下 训练 数据 集中 前 9 个 样本 的 图 像 内 容 和 文本 标签 。 
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In [9]: X, y = mnist_train[0:9] 
show_fashion_mnist(X, get_fashion_mnist_lLabels(y) ) 


pullover ankle boot shirt t-shirt dress coat coat sandal coat 





3.5.2 iA) its 


我 们 将 在 训练 数据 集 上 训练 模型 ， 并 将 训练 好 的 模型 在 测试 数据 集 上 评价 模型 的 表现 。 虽 
然 我 们 可 以 像 3.2 节 中 那样 通过 yield 来 定义 读 取 小 批量 数据 样本 的 函数 ， 但 为 了 代码 简洁 ， 
这 里 我 们 直接 创建 DataLoader 实例 。 该 实例 每 次 读 取 一 个 样本 数 为 batch_size 的 小 批量 数 
据 。 这 里 的 批量 大 小 batch_size 是 一 个 超 参数 。 


在 实践 中 ， 数 据 读 取经 常 是 训练 的 性 能 瓶颈 ， 特 别 当 模型 较 简单 或 者 计算 硬件 性 能 较 高 
时 。Gluon 的 DataLoader 中 一 个 很 方便 的 功能 是 允许 使 用 多 进程 来 加 速 数据 读 取 〈 暂 不 支持 
Windows 操作 系统 )。 这 里 我 们 通过 参数 num_workers 来 设置 4 个 进程 读 取 数 据 。 


此 外 ， 我 们 通过 ToTensor 实例 将 图 像 数 据 从 uint8 格式 变换 成 32 位 浮 点 数 格式 ， 并 除 
以 255 使 得 所 有 像素 的 数值 均 在 0 到 1 之 间 。ToTensor 实例 还 将 图 像 通道 从 最 后 一 维 移 到 最 
前 一 维 来 方便 之 后 介绍 的 卷 积 神经 网 络 计算 。 通 过 数据 集 的 transform_first 函数 ， 我 们 将 
ToTensor 的 变换 应 用 在 每 个 数据 样本 〈 图 像 和 标签 ) 的 第 一 个 元 素 ， 即 图 像 之 上 。 


In [10]: batch_size = 256 
transformer = gdata.vision.transforms.ToTensor () 
if sys.platform.startswith('win'); 
num_workers = © # 0 表示 不 用 额外 的 进程 来 加 速 读 取 数 据 
else: 
num_workers = 4 


train_iter = gdata.DataLoader (mnist_train.transform_first(transformer), 
batch_size, shuffle=True, 
num_workers=num_workers) 

test_iter = gdata.DataLoader(mnist_test.transform_first(transformer) , 
batch_size, shuffle=False, 
num_workers=num_workers) 


我 们 将 获取 并 读 取 Fashion-MNIST 数据 集 的 逻辑 封装 在 d21zh. load_data_fashion_ 
mnist 函数 中 供 后 面 章节 调用 。 该 函数 将 返回 train_iter 和 test_iter 两 个 变量 。 随 着 本 
书 内 容 的 不 断 深入 ， 我 们 会 进一步 改进 该 函数 。 它 的 完整 实现 将 在 5.6 TPH. 


最 后 我 们 查看 读 取 一 过 训练 数据 需要 的 时 间 。 


In [11]: start = time.time() 
for X, y in train_iter: 
continue 
'%.2f sec' % (time.time() - start) 


METIL: *1.26 sec" 


3.6 softmax 回归 的 从 零 开 始 实现 + 45% 










小 结 
。 Fashion-MNIST 是 一 个 10 类 服饰 分 类 数据 集 ， 之 后 章节 里 将 使 用 它 来 检验 不 同 算法 的 表现 。 
© RANG RAED A h Fe w hE ARYA ARITA hxw A (h, WwW)。 


减 小 batch_size (如 到 1) 会 影响 读 取 性 能 吗 ? 
非 Windows 用 户 请 党 试 修改 num_workers 来 查看 它 对 读 取 性 能 的 影响 。 


查阅 MXNet X#5, mxnet.gluon.data. vision 里 还 提供 了 哪些 别 的 数据 集 ? 
查阅 MXNet 文档 ，mxnet.gluon.data.vision.transforms 还 提供 了 哪些 别 的 变换 





3.6 softmax 回 归 的 从 零 开 始 实现 


这 一 节 我 们 来 动手 实现 softmax EHH. EGA AS SEL ita BK [m]: 
模块 。 
Ln: bees %matplotlib inline 


import d2lzh as d21 
from mxnet import autograd, nd 






3.6.1 ” 读 取 数据 集 
我 们 将 使 用 Fashion-MNIST 数据 集 ， 并 设置 批量 大 小 为 256。 


In [2]: batch_size = 256 
train_iter, test_iter = d21.load_data_fashion_mnist(batch_size) 


3.6.2 ”初始 化 模型 参数 


跟 线性 回归 中 的 例子 一 样 ， 我 们 将 使 用 向 量 表示 每 个 样本 。 己 知 每 个 样本 输入 是 高 和 宽 均 
为 28 像素 的 图 像 。 模 型 的 输入 向 量 的 长 度 是 28x28 = 784: 该 向 量 的 每 个 元 素 对 应 图 像 中 每 个 
BA. HARA 10 个 类 别 ， 单 层 神 经 网 络 输出 层 的 输出 个 数 为 10， 因 此 softmax 回归 的 权 
重 和 偏差 参数 分 别 为 784x10 All 1 x 10 的 矩阵 。 


In [3]: num_inputs = 784 
num_outputs = 10 


W = nd.random.normal(scale=0.01, shape=(num_inputs, num_outputs) ) 
b = nd.zeros(num_outputs) 


同 之 前 一 样 ， 我 们 要 为 模型 参数 附 上 梯度 。 
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In [4]: W.attach_grad() 
b.attach_grad() 


3.6.3 ”实现 softmax 运 算 

在 介绍 如 何 定 义 softmax 回归 之 前 ， 我 们 先 描述 一 下 对 如 何 对 多 维 NDArray 按 维 度 操 
作 。 在 下 面 的 例子 中 ， 给 定 一 个 NDArray 矩阵 X， 我 们 可 以 只 对 其 中 同一 列 Caxis=0) 或 同 
一 行 (axis=1) 的 元 素 求 和 ， 并 在 结果 中 保留 行 和 列 这 两 个 维度 (keepdims=True). 


In [Sis X = ndvarray( Efi, -27 3], £4;3)°6)})}) 
X.sum(axis=0, keepdims=True), X.sum(axis=1, keepdims=True) 


Out[5]: ( 
($6.2. 75.8 
<NDArray 1x3 @cpu(0)>, 
[[ 6.] 
[15.]] 


<NDArray 2x1 @cpu(0)>) 


下 面 我 们 就 可 以 定义 3.4 节 介绍 的 softmax ZR S. Æ FERA, ERE X 的 行 数 是 样本 
数 ， 列 数 是 输出 个 数 。 为 了 表达 样本 预测 各 个 输出 的 概率 ，softmax 运算 会 先 通 过 exp 函数 对 每 
个 元 素 做 指数 运算 ， 再 对 exp 矩阵 同行 元 素 求 和 ， 最 后 令 窃 阵 每 行 各 元 素 与 该 行 元 素 之 和 相 除 。 
这 样 一 来 ， 最 终 得 到 的 矩阵 每 行 元 素 和 为 1 且 非 负 。 因 此 ， 该 矩阵 每 行 都 是 合法 的 概率 分 布 。 
softmax 运算 的 输出 矩阵 中 的 任意 一 行 元 素 代表 了 一 个 样本 在 各 个 输出 类 别 上 的 预测 概率 。 
In [6]: def softmax(X) : 
X_exp = X.exp() 


partition = X_exp.sum(axis=l, keepdims=True) 


return X_exp / partition # 这 里 应 用 了 广播 机 制 
可 以 看 到 ， 对 于 随机 输入 ， 我 们 将 每 个 元 素 变 成 了 非 负 数 ， 且 每 一 行 和 为 1。 


In [7]: X = nd.random.normal(shape=(2, 5)) 
X_prob = softmax(X) 
X_prob, X_prob.sum(axis=1) 


Quti7]i: { 
[[0.21324193 0.33961776 0.1239742 0.27106097 0.05210521] 
[0.11462264 0.3461234 0.19401033 0.29583326 0.04941036]] 
<NDArray 2x5 @cpu(0)>, ; 
[1.0000001 1. ] 
<NDArray 2 @cpu(0)>) 


3.6.4 ”定义 模型 


有 了 softmax 运算 ， 我 们 可 以 定义 3.4 节 摘 述 的 softmax 回归 模型 了 。 这 里 通过 reshape 
函数 将 每 张 原始 图 像 改 成 长 度 为 num_inputs ff [A] at. 


In [8]: def net(X): 
return softmax(nd.dot(X.reshape((-1, num_inputs)), W) + b) 


3.6 softmax 回归 的 从 零 开 始 实现 + 47° 


3.6.5 ”定义 损失 函数 


在 3.4 节 中 ， 我 们 介绍 了 softmax 回归 使 用 的 交叉 焙 损 失 函 数 。 为 了 得 到 标签 的 预测 概率 ， 
我 们 可 以 使 用 pick 函数 。 在 下 面 的 例子 中 ， 变 量 y_hat 是 2 个 样本 在 3 个 类 别 的 预测 概率 ， 
变量 y 是 这 2 个 样本 的 标签 类 别 。 通 过 使 用 pick 函数 ， 我 们 得 到 了 2 个 样本 的 标签 的 预测 概 
率 。 与 3.4 节 数 学 表述 中 标签 类 别离 散 值 从 1 开始 逐一 递增 不 同 ， 在 代码 中 ， 标 签 类 别 的 离散 
值 是 从 0 开始 逐一 递增 的 。 


In [9]: y_hat = nd.array([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]]) 
y = nd.array([0, 2], dtype='int32') 
nd.pick(y_hat, y) 


Out[9]: 
[0.1 0.5] 
<NDArray 2 @cpu(0)> 


下 面 实 现 了 3.4 WP SPA 2c AAR PR AL 


In [10]: def cross_entropy(y_hat, y): 
return -nd.pick(y_hat, y).log() 


3.6.6 ”计算 分 类 准确 率 


给 定 一 个 类 别 的 预测 概率 分 布 y_hat， 我 们 把 预测 概率 最 大 的 类 别 作 为 输出 类 别 。 如 果 它 
与 真实 类 别 y 一 致 ， 说 明 这 次 预测 是 正确 的 。 分 类 准确 率 即 正确 预测 数量 与 总 预测 数量 之 比 。 


为 了 演示 准确 率 的 计算 ， 下 面 定 义 准确 率 accuracy PRA. HLA y_hat.argmax(axis=1) 
BEERE y_hat 每 行 中 最 大 元 素 的 索引 ， 且 返回 结果 与 变量 y 形状 相同 。 我 们 在 2.2 节 介 绍 过 ， 
相等 条 件 判 别 式 (y_hat.argmax(axis=1) == y) 是 一 个 值 为 0〈 相 等 为 假 ) 或 1 (相等 为 真 ) 
的 NDArray。 由 于 标签 类 型 为 整数 ， 我 们 先 将 变量 y 变换 为 浮 点 数 再 进行 相等 条 件 判 断 。 


In [11]: def accuracy(y_hat, y): 
return (y_hat.argmax(axis=1) == y.astype('float32')).mean().asscalar() 


让 我 们 继续 使 用 在 演示 pick 函数 时 定义 的 变量 y_hat 和 y， 并 将 它们 分 别 作 为 预测 概率 
分 布 和 标签 。 可 以 看 到 ， 第 一 个 样本 预测 类 别 为 2〈 该 行 最 大 元 素 0.6 在 本 行 的 索引 为 2) 与 
真实 标签 0 不 一 致 ， 第 二 个 样本 预测 类 别 为 2( 该 行 最 大 元 素 0.5 在 本 行 的 索引 为 2) ， 与 真实 
标签 2 一 致 。 因 此 ， 这 两 个 样本 上 的 分 类 准确 率 为 0.5。 


In [12]: accuracy(y_hat, y) 
Out[12]: 0.5 


类 似 地 ， 我 们 可 以 评价 模型 net 在 数据 集 data_iter 上 的 准确 率 。 
In [13]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 。 该 函数 将 被 逐步 改进 : 它 的 完整 实现 将 在 9 .1 节 中 描述 


def evaluate_accuracy(data_iter, net): 
acc_sum, n = 0.0, 0 
for X, y in data_iter: 
y = y.astype('float32') 
acc_sum += (net(X).argmax(axis=1) == y).sum().asscalar() 
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n += y.size 
return acc_sum / n 


因为 我 们 随机 初始 化 了 模型 net， 所 以 这 个 随机 模型 的 准确 率 应 该 接近 于 类 别 个 数 10 的 
倒数 0.1. 


In [14]: evaluate_accuracy(test_iter, net) 


Out[14]: 0.0925 


3.6.7 ”训练 模型 


训练 softmax 回归 的 实现 与 3.2 节 介 绍 的 线性 回归 中 的 实现 非常 相似 。 我 们 同样 使 用 小 批 
量 随机 梯度 下 降 来 优化 模型 的 损失 卫 数 。 在 训练 模型 时 ， 友 代 周 期 数 num_epochs 和 学 习 率 
Lr 都 是 可 以 调 的 超 参 数 。 改 变 它们 的 值 可 能 会 得 到 分 类 更 准确 的 模型 。 


In [15]: num_epochs, lr = 5, 0.1 





# 本 函数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, 
params=None, lr=None, trainer=None): 
for epoch in range(num_epochs) : 
train_l_sum, train_acc_sum, n = 0.0, 0.0, 0 
for X, y in train_iter: 
with autograd.record(): 
y_hat = net(X) 
t = loss(y_hat, y).sum() 
L. backward () 
if trainer is None: 
d2l.sgd(params, lr, batch_size) 
else: 
trainer.step(batch_size) # 3.7 节 将 用 到 
y = y.astype('float32') 
train_l_sum += l.asscalar() 
train_acc_sum += (y_hat.argmax(axis=1) == y).sum().asscalar() 
n += y.size 
test_acc = evaluate_accuracy(test_iter, net) 
print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f' 
% (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc)) 


train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, 
[W, b], lr) 


epoch 1, loss 0.7882, train acc 0.749, test acc 0.800 
epoch 2, loss 0.5741, train acc 0.811, test acc 0.824 
epoch 3, loss 0.5298, train acc 0.823, test acc 0.830 
epoch 4, loss 0.5055, train acc 0.830, test acc 0.834 
epoch 5, loss 0.4887, train acc 0.834, test acc 0.840 


3.6.8 预测 
训练 完成 后 ， 现 在 就 可 以 演示 如 何 对 图 像 进行 分 类 了 。 给 定 一 系列 图 像 〈 第 三 行 图 像 输 


3.7 softmax 回归 的 简洁 实现 + 49° 


出 )， 我 们 比较 一 下 它们 的 真实 标签 (第 一 行文 本 输出 ) 和 模型 预测 结果 (第 二 行文 本 输出 )。 


In [16]: for X, y in test_iter: 
break 


true_labels = d2l.get_fashion_mnist_lLabels(y.asnumpy () ) 
pred_labels = d2l.get_fashion_mnist_labels(net(X) .argmax(axis=1) .asnumpy () ) 
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels) ] 


d21l.show_fashion_mnist(X[0:9], titles[0:9]) 


shirt sandal 
shirt sandal 


t-shirt trouser pullover pullover dress pullover 
t-shirt trouser pullover shirt coat shirt 





a Gi 
ae 
x 谢 





小 结 
e 可 以 使 用 softmax 回归 做 多 类 别 分 类 。 与 训练 线性 回归 相 比 ， 你 会 发 现 训 练 softmax 回归 的 
步骤 和 它 非 常 相似 获取 并 读 取 数 据 、 定 义 模 型 和 损失 函数 并 使 用 优化 算法 训练 模型 。 事 实 
上 ， 绝 大 多 数 深度 学 习 模型 的 训练 都 有 着 类 似 的 步骤 。 


练习 

(1) 在 本 节 中 ， 我 们 直接 按照 softmax 运算 的 数学 定义 来 实现 softmax 函数 。 这 可 能 
问题 ? (提示 : 试 一 试 计算 exp(50) 的 大 小 。) 

(2) 本 节 中 的 cross_entropy BKZEEKI47PHRABMA BKRHKFTALEMMH. a 
样 的 实现 方式 可 能 有 什么 问题 ? 〈 提 示 : 思考 一 下 对 数 函 数 的 定义 域 。) 

(3) 你 能 想到 哪些 办 法 来 解决 上 面 的 两 个 问题 ? 





3.7 softmax 回 归 的 简洁 实现 








们 再 次 使 用 Gluon 来 实现 一 个 softmax 回归 模型 。 首 先导 入 所 需 的 包 或 
模块 。 


In [1]: %matplotlib inline 
import d2Lzh as d2l 
from mxnet import gluon, init 
from mxnet.gluon import loss as gloss, nn 


3.7.1 读 取 数据 集 
我 们 仍然 使 用 Fashion-MNIST 数据 集 和 3.6 节 中 设置 的 批量 大 小 。 


In [2]: batch_size = 256 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size) 
3.7.2 ”定义 和 初始 化 模型 


在 3.4 节 中 提 到 ，softmax 回归 的 输出 层 是 一 个 全 连接 层 。 因 此 ， 我 们 添加 一 个 输出 个 数 
为 10 的 全 连接 层 。 我 们 使 用 均值 为 0、 标准 差 为 0.01 的 正 态 分 布 随机 初始 化 模型 的 权重 参数 。 
In [3]: net = nn.Sequential() 


net.add(nn.Dense(10) ) 
net. initialize(init.Normal(sigma=0.01) ) 


3.7.3 softmaxFlae Zi RAR AY 


如 果 做 了 3.6 节 的 练习 ， 那 么 你 可 能 意识 到 了 分 开 定义 softmax ERAI URI R PR BLT 
能 会 造成 数值 不 稳定 。 因 此 ，Gluon 提供 了 一 个 包括 softmax io FAA NM Metin Kit HY PR BL 
它 的 数值 稳定 性 更 好 。 


In [4]: loss = gloss.SoftmaxCrossEntropyLoss() 


3.7.4 定义 优化 算法 
我 们 使 用 学 习 率 为 0.1 的 小 批量 随机 梯度 下 降 作为 优化 算法 。 


In [5]: trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.1}) 


3.7.5 训练 模型 
接 下 来 ， 我 们 使 用 3.6 节 中 定义 的 训练 函数 来 训练 模型 。 


In [6]: num_epochs = 5 
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, 
None, trainer) 





epoch 1, loss 0.7885, train acc 0.747, test acc 0.806 
epoch 2, loss 0.5741, train acc 0.811, test acc 0.824 
epoch 3, loss 0.5293, train acc 0.824, test acc 0.832 
epoch 4, loss 0.5042, train acc 0.831, test acc 0.838 
epoch 5, loss 0.4892, train acc 0.835, test acc 0.841 


小 结 
e Gluon 提供 的 函数 往往 具有 更 好 的 数值 稳定 性 。 
© 可 以 使 用 Gluon 更 简洁 地 实现 softmax 回归 。 


练习 
尝试 调 一 调 超 参数 ， 如 批量 大 小 、 和 迭代 周期 和 学 习 率 ， 看 看 结果 会 怎样 。 
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3.8 SEREN 


我 们 已 经 介绍 了 包括 线性 回归 和 softmax 回归 在 内 的 单 层 神经 网 [m]; [m] 
络 。 然 而 深度 学 习 主 要 关注 多 层 模型 。 在 本 节 中 ， 我 们 将 以 多 层 感 知 机 
(multilayer perceptron, MLP) 为 例 ， 介 绍 多 层 神 经 网 络 的 概念 。 








3.8.1 隐藏 层 


多 层 感 知 机 在 单 层 神经 网 络 的 基础 上 引入 了 一 到 多 个 隐藏 层 Chidden layer)。 隐 藏 层 位 于 
输入 层 和 输出 层 之 间 。 图 3-3 展示 了 一 个 多 层 感 知 机 的 神经 网 络 图 。 


输出 层 


隐藏 层 


输入 层 


CES wine EE 
ad e ery 
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图 3-3 WARES RAL. ERATE, IEPA 5 个 隐藏 单元 


在 图 3-3 所 示 的 多 层 感知 机 中 ， 输 入 和 输出 个 数 分 别 为 4 和 3， 中间 的 隐藏 层 中 包含 了 5 
个 隐藏 单元 (hidden unit)。 由 于 输入 层 不 涉及 计算 ， 图 3-3 中 的 多 层 感知 机 的 层 数 为 2。 由 图 
3-3 可 见 ， 隐 藏 层 中 的 神经 元 和 输入 层 中 各 个 输入 完全 连接 ， 输 出 层 中 的 神经 元 和 隐藏 层 中 的 
各 个 神经 元 也 完全 连接 。 因 此 ， 多 层 感知 机 中 的 隐藏 层 和 输出 层 都 是 全 连接 层 。 
具体 来 说 ， 给 定 一 个 小 批量 样本 X es 开交， 其 批量 大 小 为 n, WADE do BRL ER 
知 机 只 有 一 个 隐藏 层 ， 其 中 隐藏 单元 个 数 为 如 。 记 隐藏 层 的 输出 〈 也 称 为 隐藏 层 变量 或 隐藏 变 
量 ) XH, 有 H eR”™”。 因 为 隐藏 层 和 输出 层 均 是 全 连接 层 ， 可 以 设 隐藏 层 的 权重 参数 和 偏差 
BRIA W, eR” 和 beR™， 输 出 层 的 权重 和 偏差 参数 分 别 为 W, e R 和 b, eR”. 
我 们 先 来 看 一 种 含 单 隐藏 层 的 多 层 感知 机 的 设计 。 其 输出 O eR” 的 计算 为 
H = XW, +b, 
O = HW +b, 
也 就 是 将 隐藏 层 的 输出 直接 作为 输出 层 的 输入 。 如 果 将 以 上 两 个 式 子 联 立 起 来 ， 可 以 得 到 
O = (XW, + 5, )W, +b, = XWW +b,W, +b, 


从 联 立 后 的 式 子 可 以 看 出 ， 虽 然 神 经 网 络 引 入 了 隐藏 层 ， 却 依然 等 价 于 一 个 单 层 神 经 网 
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络 : 其 中 输出 层 权 重 参数 为 W, Wo MEZON bW, + 如。 不 难 发 现 ， 即 便 再 添加 更 多 的 隐藏 
层 ， 以 上 设计 依然 只 能 与 仅 含 输出 层 的 单 层 神 经 网 络 等 价 。 


3.8.2 激活 函数 


上 述 问题 的 根源 在 于 全 连接 层 只 是 对 数据 做 仿 射 变换 (affine transformation), m ZAA 
变换 的 钱 加 仍然 是 一 个 仿 射 变换 。 解 决 问题 的 一 个 方法 是 引入 非 线 性 变换 ， 例 如 对 隐藏 变量 使 
用 按 元 素 运 算 的 非 线 性 函数 进行 变换 ， 然 后 再 作为 下 一 个 全 连接 层 的 输入 。 这 个 非 线性 函数 被 
称 为 激活 函数 (activation function)。 下 面 我 们 介绍 几 个 常用 的 激活 函数 。 


1. ReLURR 


ReLU (rectified linear unit) 函数 提供 了 一 个 很 简单 的 非 线性 变换 。 给 定 元 素 x， 该 函数 定义 为 
ReLU (x) = max (x, 0) 


可 以 看 出 ，ReLU 函数 只 保留 正 数 元 素 ， 并 将 负数 元 素 清 零 。 为 了 直观 地 观察 这 一 非 线 性 变换 ， 
我 们 先 定义 一 个 绘图 函数 xyplot。 


In [1]: %matplotlib inline 
import d2lzh as d2L 
from mxnet import autograd，nd 


def xyplot(x_vals, y_vals, name): 
d2l.set_figsize(figsize=(5, 2.5)) 
d21l.plt.plot(x_vals.asnumpy(), y_vals.asnumpy()) > 
d21l.plt.xlabel('x') 
d21l.plt.ylabel(name + '(x)') 


我 们 接 下 来 通过 NDArray 提供 的 relu 函数 来 绘制 ReLU 函数 。 可 以 看 到 ， 该 激活 函数 是 
一 个 两 段 线性 函数 。 


In [2]: x = nd.arange(-8.0, 8.0, 0.1) 
x.attach_grad() 
with autograd.record(): 
y = x.relu() 
xyplot(x, y, 'relu') 


8 


relu(x) 
> 
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显然 ， 当 输入 为 负数 时 ，ReLU 函数 的 导数 为 0; 当 输 入 为 正 数 时 ，ReLU 函数 的 导数 为 
1。 尽 管 输入 为 0 时 ReLU 函数 不 可 导 ， 但 是 我 们 可 以 取 此 处 的 导数 为 0。 下 面 绘制 ReLU 函数 
的 导数 。 


In [3]: y.backward() 
xyplot(x, x.grad, 'grad of relu') 


0.6 


0.4 


grad of relu(x) 


0.2 


0.0 


2. sigmoid 


sigmoid 函数 可 以 将 元 素 的 值 变换 到 0 和 1 之 间 : 
sigmoid(x) et a5 
sigmoid 函数 在 早期 的 神经 网 络 中 较为 普 裔 ， 但 它 目 前 逐渐 被 更 简单 的 ReLU 函数 取代 。 
在 第 6 章 中 我 们 会 介绍 如 何 利用 它 值 域 在 0 到 1 之 间 这 一 特性 来 控制 信息 在 神经 网 络 中 的 流 
动 。 下 面 绘制 了 sigmoid 函数 。 当 输入 接近 0 时 ，sigmoid 函数 接近 线性 变换 。 
In [4]: with autograd.record(): 


y = x.sigmoid() 
xyplot(x, y, 'sigmoid') 


1.0 


Sigmoid(x) 
© © © 
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© 
N 


0.0 


依据 链 式 法 则 ，sigmoid 函数 的 导数 为 
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slgmold'(x) = sigmoid(x) (1- sigmoid(x)) 
下 面 绘制 了 sigmoid 函数 的 导数 。 当 输入 为 0 时 ，sigmoid 函数 的 导数 达到 最 大 值 0.25; 
当 输 入 越 偏 离 0 时 ，sigmoid 函数 的 导数 越 接近 0。 


In [5]: y.backward() 
xyplot(x, x.grad, ‘grad of sigmoid') 
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3. tanh 函 数 
tanh 〈 双 曲 正切 ) 函数 可 以 将 元 素 的 值 变换 到 -1 和 1 之 间 : 
bn 1—exp(— 2x) 
1+exp(—2x) 


我 们 接着 绘制 tanh 函数 。 当 输入 接近 OWN, tanh 函数 接近 线性 变换 。 虽 然 该 函数 的 形状 
和 sigmoid 函数 的 形状 很 像 ， 但 tanh 函数 在 坐标 系 的 原点 上 对 称 。 


In [6]: with autograd.record(): 
y = x.tanh() 
xyplot(x, y, 'tanh') 


1.0 
0.5 


0.0 


tanh(x) 


一 


= 


依据 链 式 法 则 ，tanh 函数 的 导数 为 
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tanh’(x) = 1- tanh? (x) 
下 面 绘制 了 tanh 函数 的 导数 。 当 输入 为 0 时 ，tanh 函数 的 导数 达到 最 大 值 1; 当 输 入 越 偏 
A OW, tanh 函数 的 导数 越 接近 0。 


In [7]: y.backward() 
xyplot(x, x.grad, 'grad of tanh') 


grad of tanh(x) 


3.8.3 BRI 


多 层 感 知 机 就 是 含有 至 少 一 个 隐藏 层 的 由 全 连接 层 组 成 的 神经 网 络 ， 且 每 个 隐藏 层 的 输出 
通过 激活 函数 进行 变换 。 多 层 感 知 机 的 层 数 和 各 隐藏 层 中 隐藏 单元 个 数 都 是 超 参数 。 以 单 隐 茂 
层 为 例 并 沿用 本 节 之 前 定义 的 符号 ， 多 层 感知 机 按 以 下 方式 计算 输出 : 

H = $(XW,, +b) 
O= HW, +b, 
其 中 9 表示 激活 函数 。 在 分 类 问题 中 ， 我 们 可 以 对 输出 O 做 softmax 运算 ， 并 使 用 softmax El 


归 中 的 交叉 和 损 失 函 数 。 在 回归 问题 中 ， 我 们 将 输出 层 的 输出 个 数 设 为 1， 并 将 输出 O 直接 提 
供给 线性 回归 中 使 用 的 平方 损失 函数 。 


小 结 
© 多 层 感知 机 在 输出 层 与 输入 层 之 间 加 入 了 一 个 或 多 个 全 连接 隐藏 层 ， 并 通过 激活 函数 对 隐藏 
层 输出 进行 变换 。 
e 常用 的 激活 函数 包括 ReLU HA, sigmoid HAF tanh HA. 


练习 
(1) 应 用 链 式 法 则 ， 推 导出 sigmoid 函数 和 tanh 函数 的 导数 的 数学 表达 式 。 
(2) 查阅 资料 ， 了 解 其 他 的 激活 函数 。 





3.9 ”多 层 感 知 机 的 从 零 开始 实现 


all m 

我 们 已 经 从 3.8 节 里 了 解 了 多 层 感知 机 的 原理 。 下 面 ， 我 们 一 起 来 动 OFF 

手 实现 一 个 多 层 感 知 机 。 首 先导 入 实现 所 需 的 包 或 模块 。 a 
In [1]: %matplotlib inline 


import d2Lzh as d21 
from mxnet import nd 





from mxnet.gluon import loss as gloss 


3.9.1 读 取 数 据 集 
这 里 继续 使 用 Fashion-MNIST 数据 集 。 我 们 将 使 用 多 层 感 知 机 对 图 像 进 行 分 类 。 


In [2]: batch_size = 256 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size) 


3.9.2 ”定义 模型 参数 


我 们 在 3.5 节 里 已 经 介绍 了 ，Fashion-MNIST 数据 集中 图 像 形 状 为 28x28， 类 别 数 为 10。 
本 节 中 我 们 依然 使 用 长 度 为 28 x 28 = 784 的 向 量 表示 每 一 张 图 像 。 因 此 ， 输 入 个 数 为 784， 输 
出 个 数 为 10。 实 验 中 ， 我 们 设 超 参数 隐藏 单元 个 数 为 256。 


In [3]: num_inputs, num_outputs, num_hiddens = 784, 10, 256 


W1 = nd.random.normal(scale=0.01, shape=(num_inputs, num_hiddens) ) 
bl = nd.zeros(num_hiddens) 
W2 = nd.random.normal(scale=0.01, shape=(num_hiddens, num_outputs) ) 
b2 = nd.zeros(num_outputs) 


params = [Wl, bl, W2, b2] 


for param in params: 
param.attach_grad() 


3.9.3， 定 义 激活 函数 
这 里 我 们 使 用 基础 的 maximum 函数 来 实现 ReLU， 而 非 直接 调用 MXNet 的 relu 函数 。 


In [4]: def relu(X): 
return nd.maximum(X, 0) 
3.9.4 ”定义 模型 


同 softmax 回归 一 样 ， 我 们 通过 reshape 函数 将 每 张 原始 图 像 改 成 长 度 为 num_inputs 的 
向 量 。 然 后 我 们 实现 3.8 节 中 多 层 感知 机 的 计算 表达 式 。 
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In [5]: def net(X): 
X = X.reshape((-1, num_inputs) ) 
H = relu(nd.dot(X, W1) + b1) 
return nd.dot(H, W2) + b2 


3.9.5 ”定义 损失 消 数 
为 了 得 到 更 好 的 数值 稳定 性 ， 我 们 直接 使 用 Gluon 提供 的 包括 softmax 运算 和 交叉 燃 损 失 
计算 的 函数 。 


In [6]: loss = gloss.SoftmaxCrossEntropyLoss() 


3.9.6 ”训练 模型 


训练 多 层 感 知 机 的 步骤 和 3.6 节 中 训练 softmax 回归 的 步骤 没什么 区 别 。 我 们 直接 调用 
d2Lzh 包 中 的 train_ch3 函数 ， 它 的 实现 已 经 在 3.6 节 里 介绍 过 。 我 们 在 这 里 设 超 参数 迭代 周 
期 数 为 5， 学 习 率 为 0.5。 

In [7]: num_epochs, lr = 5, 0.5 


d21l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, 
params, lr) 


epoch 1, loss 0.7941, train acc 0.704, test acc 0.817 
epoch 2, loss 0.4859, train acc 0.821, test acc 0.846 
epoch 3, loss 0.4289, train acc 0.840, test acc 0.864 
epoch 4, loss 0.3949, train acc 0.855, test acc 0.867 
epoch 5, loss 90.3717, train acc 0.863, test acc 0.873 


小 结 
© 可 以 通过 手动 定义 模型 及 其 参数 来 实现 简单 的 多 层 感知 机 。 
© 当 多 层 感 知 机 的 层 数 较 多 时 ， 本 节 的 实现 方法 会 显得 较 烦琐 ， 如 在 定义 模型 参数 的 时 候 。 


练习 
(1) 改变 超 参 数 num_hiddens 的 值 ， 看 看 对 实验 结果 有 什么 影响 。 
(2) 试 着 加 入 一 个 新 的 隐藏 层 ， 看 看 对 实验 结果 有 什么 影响 。 





3.10 “多 层 感知 机 的 简洁 实现 


al 
下 面 我 们 使 用 Gluon 来 实现 3.9 节 中 的 多 层 感知 机 。 首 先导 入 所 需 的 [al 
包 或 模块 。 
In [1]: import d2Lzh as d2L 


from mxnet import gluon, init 
from mxnet.gluon import loss as gloss, nn 






3.10.1 定义 模型 


和 softmax 回归 唯一 的 不 同 在 于 ， 我 们 多 加 了 一 个 全 连接 层 作 为 隐藏 层 。 它 的 隐藏 单 元 个 
数 为 256， 并 使 用 ReLU 函数 作为 激活 函数 。 


In [2]: net = nn.Sequential() 
net.add(nn.Dense(256, activation='relu'), 
nn.Dense(10) ) 
net. initialize(init.Normal(sigma=0.01) ) 


3.10.2 ”训练 模型 
我 们 使 用 与 3.7 节 中 训练 softmax 回归 几乎 相同 的 步骤 来 读 取 数据 并 训练 模型 。 


In [3]: batch_size = 256 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size) 


loss = gloss.SoftmaxCrossEntropyLoss() 

trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.5}) 

num_epochs = 5 

d21l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, 
None, trainer) 


epoch 1, loss 0.8033, train acc 0.701, test acc 0.819 
epoch 2, loss 0.4998, train acc 0.815, test acc 0.836 
epoch 3, loss 0.4332, train acc 0.838, test acc 0.862 
epoch 4, loss 0.4019, train acc 0.851, test acc 0.855 
epoch 5, loss 0.3755, train acc 0.862, test acc 0.873 


小 结 


e 通过 Gluon 可 以 更 简洁 地 实现 多 层 感知 机 。 





练习 
(1) 尝试 多 加 入 几 个 隐藏 层 ， 对 比 3.9 节 中 从 零 开 始 的 实现 。 
(2) 使 用 其 他 的 激活 函数 ， 看 看 对 结果 的 影响 。 


3.11 ”模型 选择 、 欠 拟 合 和 过 拟 合 


在 前 几 节 基于 Fashion-MNIST 数据 集 的 实验 中 ， 我 们 评价 了 机 器 学 习 
模型 在 训练 数据 集 和 测试 数据 集 上 的 表现 。 如 果 你 改变 过 实验 中 的 模型 结 
构 或 者 超 参 数 ， 你 也 许 发 现 了 : 当 模 型 在 训练 数据 集 上 更 准确 时 ， 它 在 测 
试 数 据 集 上 却 不 一 定 更 准确 。 这 是 为 什么 呢 ? 
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3.11.1 训练 误差 和 泛 化 误差 


在 解释 上 述 现象 之 前 ， 我 们 需要 区 分 训练 误差 (training error) 和 泛 化 误差 〈generalization 
error)。 通 俗 来 讲 ， 前 者 指 模型 在 训练 数据 集 上 表现 出 的 误差 ， 后 者 指 模 型 在 任意 一 个 测试 数 
据 样 本 上 表现 出 的 误差 的 期 望 ， 并 常常 通过 测试 数据 集 上 的 误差 来 近似 。 计 算 训练 误差 和 汽化 
误差 可 以 使 用 之 前 介绍 过 的 损失 函数 ， 例 如 线性 回归 用 到 的 平方 损失 函数 和 softmax 回归 用 到 
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让 我 们 以 高 考 为 例 来 直观 地 解释 训练 误差 和 泛 化 误差 这 两 个 概念 。 训 练 误差 可 以 认为 是 做 
往年 高 考试 题 (训练 题 时 的 错误 率 ， 泛 化 误差 则 可 以 通过 真正 参加 高 考 ( 测 试题 ) 时 的 答题 
错误 率 来 近似 。 假 设 训 练 题 和 测试 题 都 随机 采样 于 一 个 未 知 的 依照 相同 考纲 的 巨大 试题 库 。 如 
果 让 一 名 未 学 习 中 学 知识 的 小 学 生 去 答题 ， 那 么 测试 题 和 训练 题 的 答题 错误 率 可 能 很 相近 。 但 
如 果 换 成 一 名 反复 练习 训练 题 的 高 三 备考 生 答题 ， 即 使 在 训练 题 上 做 到 了 错误 率 为 0， 也 不 代 
表 真 实 的 高 考 成 绩 会 如 此 。 


在 机 器 学 习 里 ， 我 们 通常 假设 训练 数据 集 〈 训 练 题 )》 和 测试 数据 集 〈 测 试题 ) 里 的 每 一 个 
样本 都 是 从 同一 个 概率 分 布 中 相互 独立 地 生成 的 。 基 于 该 独立 同 分 布 假设 ， 给 定 任意 一 个 机 器 
学 习 模型 ( 含 参 数 )， 它 的 训练 误差 的 期 望 和 泛 化 误差 都 是 一 样 的 。 例 如 ， 如 果 我 们 将 模型 参 
数 设 成 随机 值 〈 小 学 生 )， 那 么 训练 误差 和 泛 化 误差 会 非常 相近 。 但 我 们 从 前 面 几 节 中 已 经 了 
解 到 ， 模 型 的 参数 是 通过 在 训练 数据 集 上 训练 模型 而 学 习 出 的 ， 参 数 的 选择 依据 了 最 小 化 训 
练 误差 (高 三 备考 生 )。 所 以 ， 训 练 误差 的 期 望 小 于 或 等 于 泛 化 误 产 。 也 就 是 说 ， 一 般 情况 
下 ， 由 训练 数据 集 学 到 的 模型 参数 会 使 模型 在 训练 数据 集 上 的 表现 优 于 或 等 于 在 测试 数据 集 
上 的 表现 。 由 于 无 法 从 训练 误差 估计 泛 化 误差 ,一味 地 降低 训练 误差 并 不 意味 看 泛 化 误差 一 
定 会 降低 。 


机 器 学 习 模型 应 关注 降低 泛 化 误差 。 


3.11.2 ”模型 选择 


在 机 器 学 习 中 ， 通 常 需要 评估 铬 干 候选 模型 的 表现 并 从 中 选择 模型 。 这 一 过 程 称 为 模型 选 
择 (model selection)。 可 供 选 择 的 候选 模型 可 以 是 有 着 不 同 超 参 数 的 同类 模型 。 以 多 层 感 知 机 
为 例 ， 我 们 可 以 选择 隐藏 层 的 个 数 ， 以 及 每 个 隐藏 层 中 隐藏 单元 个 数 和 激活 函数 。 为 了 得 到 有 
效 的 模型 ， 我 们 通常 要 在 模型 选择 上 下 一 番 功 夫 。 下 面 ， 我 们 来 描述 模型 选择 中 经 常 使 用 的 验 
证 数据 集 (validation data set). 


1. 验证 数据 集 


从 严格 意义 上 讲 ， 测 试 集 只 能 在 所 有 超 参 数 和 模型 参数 选 定 后 使 用 一 次 。 不 可 以 使 用 测试 
数据 选择 模型 ， 如 调 参 。 由 于 无 法 从 训练 误差 估计 泛 化 误差 ， 因 此 也 不 应 只 依赖 训练 数据 选择 
模型 。 鉴 于 此 ， 我 们 可 以 预 留 一 部 分 在 训练 数据 集 和 测试 数据 集 以 外 的 数据 来 进行 模型 选择 。 
这 部 分 数据 被 称 为 验证 数据 集 ， 简 称 验 证 集 (validation set)。 例 如 ， 我 们 可 以 从 给 定 的 训练 集 
中 随机 选取 一 小 部 分 作为 验证 集 ， 而 将 剩余 部 分 作为 真正 的 训练 集 。 
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然而 在 实际 应 用 中 ， 由 于 数据 不 容易 获取 ， 测 试 数 据 极 少 只 使 用 一 次 就 丢弃 。 因 此 ， 实 上 践 
中 验证 数据 集 和 测试 数据 集 的 界限 可 能 比较 模糊 。 从 严格 意义 上 讲 ， 除 非 明确 说 明 ， 人 否则 本 书 
中 实验 所 使 用 的 测试 集 应 为 验证 集 ， 实 验 报告 的 测试 结果 如 测试 准确 率 ) 应 为 验证 结果 《如 
验证 准确 率 )。 


2. k 折 交叉 验证 


由 于 验证 数据 集 不 参与 模型 训练 ， 当 训练 数据 不 够 用 时 ， 预 留 大 量 的 验证 数据 显得 太 奢 
侈 。 一 种 改善 的 方法 是 上 折 交 又 验证 〈k-fold cross-validation)。 在 k 折 交叉 验证 中 ， 我 们 把 原始 
训练 数据 集 分 割 成 大 个 不 重合 的 子 数据 集 ， 然 后 我 们 做 大 次 模型 训练 和 验证 。 每 一 次 ， 我 们 使 用 
一 个 子 数据 集 验 证 模型 ， 并 使 用 其 他 大 -1 个 子 数据 集 来 训练 模型 。 在 这 大 次 训练 和 验证 中 ， 每 
次 用 来 验证 模型 的 子 数据 集 都 不 同 。 最 后 ， 我 们 对 这 大 次 训练 误差 和 验证 误差 分 别 求 平 均 。 


3.11.3 ”从 拟 合 和 过 拟 合 


接 下 来 ， 我 们 将 探究 模型 训练 中 经 党 出 现 的 两 类 典型 问题 : 一 类 是 模型 无 法 得 到 较 低 的 训 
练 误差 ， 我们 将 这 一 现象 称 作 欠 拟 合 (underfitting); 另 一 类 是 模型 的 训练 误差 远 小 于 它 在 测 
试 数据 集 上 的 误差 ， 我 们 称 该 现象 为 过 拟 合 (overfitting)。 在 实践 中 ， 我 们 要 尽 可 能 同时 应 对 
从 拟 合 和 过 拟 合 。 虽 然 有 很 多 因素 可 能 导致 这 两 种 拟 合 问 题 ， 在 这 里 我 们 重点 讨论 两 个 因素 : 
模型 复杂 度 和 训练 数据 集 大 小 。 


1. 模型 复杂 度 


为 了 解释 模型 复杂 度 ， 我 们 以 多 项 式 函 数 拟 合 为 例 。 给 定 一 个 由 标量 数据 特征 x 和 对 应 的 
标量 标签 》 组 成 的 训练 数据 集 ， 多 项 式 函 数 拟 合 的 目标 是 找 一 个 天 阶 多 项 式 函 数 


K 
^ k 
y=b+ > X Wi 
k=l 


来 近似 >。 在 上 式 中 ，wi 是 模型 的 权重 参数 ，b 是 偏差 参数 。 与 线性 回归 相同 ， 多 项 式 函 数 拟 
合 也 使 用 平方 损失 函数 。 特 别 地 ， 一 阶 多 项 式 函 数 拟 合 又 叫 线性 函数 拟 合 。 


因为 高 阶 多 项 式 函 数 模型 参数 更 多 ， 模 型 函数 的 选择 空间 更 大 ， 所 以 高 阶 多 项 式 函 数 比 低 
阶 多 项 式 函 数 的 复杂 度 更 高 。 因 此 ， 高 阶 多 项 式 函 数 比 低 阶 多 项 式 函 数 更 容易 在 相同 的 训练 数 
据 集 上 得 到 更 低 的 训练 误差 。 给 定 训练 数据 集 ， 模 型 复杂 度 和 误差 之 间 的 关系 通常 如 图 3-4 所 
示 。 给 定 训练 数据 集 ， 如 果 模型 的 复杂 度 过 低 ， 很 容易 出 现 欠 拟 合 ; 如 果 模 型 复杂 上 度 过 高 ， 很 
容易 出 现 过 拟 合 。 应 对 欠 拟 合 和 过 拟 合 的 一 个 办 法 是 针对 数据 集 选 择 合适 复杂 度 的 模型 。 


2. 训练 数据 集 大 小 

影响 欠 拟 合 和 过 拟 合 的 另 一 个 重要 因素 是 训练 数据 集 的 大 小 。 一 般 来 说 ， 如 果 训 练 数据 集 
中 样本 数 过 少 ， 特 别 是 比 模型 参数 数量 《〈 按 元 素 计 ) 更 少时 ， 过 拟 合 更 容易 发 生 。 此 外 ， 泛 化 
误差 不 会 随 训练 数据 集 里 样本 数量 增加 而 增 大 。 因 此 ， 在 计算 资源 允许 的 范围 之 内 ， 我 们 通常 
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硕 望 训练 数据 集 大 一 些 ， 特 别 是 在 模型 复杂 度 较 高 时 ， 如 层 数 较 多 的 深度 学 习 模 型 。 


误差 





泛 化 误差 







训练 误差 


模型 复杂 度 
3-4 模型 复杂 度 对 从 拟 合 和 过 拟 合 的 影响 


3.11.4 多 项 式 函 数 拟 合 实验 


为 了 理解 模型 复杂 度 和 训练 数据 集 大 小 对 欠 拟 合 和 过 拟 合 的 影响 ， 下 面 我 们 以 多 项 式 函 数 
拟 合 为 例 来 实验 。 首 先导 入 实验 需要 的 包 或 模块 。 
In [1]: %matplotlib inline 
import d2lzh as d21 


from mxnet import autograd, gluon, nd 
from mxnet.gluon import data as gdata, loss as gloss, nn 


1. 生成 数据 集 


我 们 将 生成 一 个 人 工 数据 集 。 在 训练 数据 集 和 测试 数据 集中 ， 给 定 样本 特征 x， 我 们 使 用 
如 下 的 三 阶 多 项 式 函 数 来 生成 该 样本 的 标签 : 


y=1.2x-3.4x +5.6x +5+e 


其 中 噪声 项 ce 服从 均值 为 0、 标准 差 为 0.1 的 正 态 分 布 。 训 练 数据 集 和 测试 数据 集 的 样本 数 都 
设 为 100。 


In [2]: n_train, n_test, true_w, true_b = 100, 100, [1.2, -3.4, 5.6], 5 
features = nd.random.normal(shape=(n_train + n_test, 1)) 
poly_features = nd.concat(features, nd.power(features, 2), 
nd.power(features, 3)) 
labels = (true_w[0] * poly_features[:, 0] + true_w[1] * poly_features[:, 1] 
+ true_w[2] * poly_features[:, 2] + true_b) 
labels += nd.random.normal(scale=0.1, shape=lLabels. shape) 


看 一 看 生成 的 数据 集 的 前 两 个 样本 。 
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In [3]: features[:2], poly_features[:2], labels[:2] 


Out[3]: £ 
[[2.2122064] 
[0.7740038] ] 
<NDArray 2x1 @cpu(0)>, 
[[ 2.2122064 4.893857 10.826221 ] 
[ 00.7740038 0.5990819 ©.46369165] ] 
<NDArray 2x3 @cpu(0)>, 
[51.674885 6.3585763 |] 
<NDArray 2 @cpu(0)>) 


2. 定义 、 训 练 和 测试 模型 
我 们 先 定义 作 图 函数 semilogy, HP y FEA THARE. 
In [4]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None, 
legend=None, figsize=(3.5, 2.5)): 

d21l.set_figsize(figsize) 

d21l.plt.xlabel(x_label) 

d21l.plt.ylabel(y_labelL) 

d21l.plt.semilogy(x_vals, y_vals) 

if x2_vals and y2_vals: 
d21l.plt.semilogy(x2_vals, y2_vals, Linestyle=':') 
d21l.plt. legend (legend) 


和 线性 回归 一 样 ， 多 项 式 函数 拟 合 也 使 用 平方 损失 函数 。 因 为 我 们 将 尝试 使 用 不 同 复杂 度 
的 模型 来 拟 合生 成 的 数据 集 ， 所 以 我 们 把 模型 定义 部 分 放 在 fit_and_plot 函数 中 。 多 项 式 函 
数 拟 合 的 训练 和 测试 步骤 与 3.6 节 介绍 的 softmax 回归 中 的 相关 步骤 类 似 。 


In [5]: num_epochs, loss = 100, gloss.L2Loss() 


def fit_and_plot(train_features, test_features, train_labels, test_labels): 
net = nn.Sequential() 
net.add(nn.Dense(1) ) 
net. initialize() 
batch_size = min(10, train_lLabels.shape[0]) 
train_iter = gdata.DataLoader(gdata.ArrayDataset ( 
train_features, train_labels), batch_size, shuffle=True) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', 
{'learning_rate': 0.01}) 
train_ls, test_ls = [], [] 
for _ in range(num_epochs) : 
for X, y in train_iter: 
with autograd.record(): 
l = loss(net(X), y) 
Ll. backward () 
trainer.step(batch_size) 
train_ls.append(loss(net(train_features) ， 
train_labels) .mean().asscalar() ) 
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test_ls.append(loss(net(test_features) ， 
test_lLabels).mean().asscalar()) 
print('final epoch: train loss', train_ls[-1], 'test loss', test_ls[-1]) 
semi Logy(range(1, num_epochs + 1), train_ls, '‘epochs', 'loss', 
range(1, num_epochs + 1), test_ls, ['train', 'test']) 
print('weight:', net[0].weight.data().asnumpy(), 
'\nbias:', net[0].bias.data().asnumpy() ) 


3. 三 阶 多 项 式 函 数 拟 合 ( 正常 ) 


我 们 先 使 用 与 数据 生成 函数 同 阶 的 三 阶 多 项 式 函数 拟 合 。 实 验 表 明 ， 这 个 模型 的 训练 误差 
和 在 测试 数据 集 的 误差 都 较 低 。 训 练 出 的 模型 参数 也 接近 真实 值 : W =1.2, w =—3.4, w = 5.6， 
b =5e 

In [6]: fit_and_plot(poly_features[:n_train, :], poly_features[n_train:, :], 


labels[:n_train], lLabels[n_train: ]) 


final epoch: train loss 0.007049637 test loss 0.0119097745 
weight: [[ 1.3258897 -3.363281 5.561593 ]] 
bias: [4.9517436] 
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4. 线性 函数 拟 合 〈 RUE ) 


我 们 再 试 试 线性 函数 拟 合 。 很 明显 ， 该 模型 的 训练 误差 在 迭代 早期 下 降 后 便 很 难 继续 降 
低 。 在 完成 最 后 一 次 友 代 周期 后 ， 训 练 误差 依旧 很 高 。 线 性 模型 在 非 线性 模型 《如 三 阶 多 项 式 
函数 ) 生成 的 数据 集 上 容易 欠 拟 合 。 


In [7]: fit_and_plot(features[:n_train, :], features[n_train:, :], labels[:n_train], 
Llabels[n_train: ]) 


final epoch: train loss 43.997887 test loss 160.65588 
weight: [[15.577538] ] 
bias: [2.2902575] 
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5. 训练 样本 不 足 ( 过 拟 合 ) 

事实 上 ， 即 便 使 用 与 数据 生成 模型 同 阶 的 三 阶 多 项 式 函 数 模型 ， 如 果 训 练 样本 不 足 ， 该 模 
型 依然 容易 过 拟 合 。 让 我 们 只 使 用 两 个 样本 来 训练 模型 。 显 然 ， 训 练 样本 过 少 了 ， 甚 至 少 于 模 
型 参数 的 数量 。 这 使 模型 显得 过 于 复杂 ， 以 至 于 容易 被 训练 数据 中 的 噪声 影响 。 在 迭代 过 程 
中 ， 尽 管 训 练 误差 较 低 ， 但 是 测试 数据 集 上 的 误差 却 很 高 。 这 是 典型 的 过 拟 合 现象 。 


In [8]: fit_and_plot(poly_features[0:2, :], poly_features[n_train:, :], labels[0:2], 
labels[n_train: ]) 


final epoch: train loss 0.4027369 test loss 103.314186 
weight: [[1.3872364 1.9376589 3.5085924]] . 
bias: [1.2312856] 
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我 们 将 在 3.12 节 和 3.13 节 继 续 讨 论 过 拟 合 问 题 以 及 应 对 过 拟 合 的 方法 。 
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由 于 无 法 从 训练 误差 估计 泛 化 误差 ， 一 味 地 降低 训练 误差 并 不 意味 着 泛 化 误差 一 定 会 降低 。 
机 器 学 习 模 型 应 关注 降低 泛 化 误差 。 

可 以 使 用 验证 数据 集 来 进行 模型 选择 。 

欠 拟 合 指 模型 无 法 得 到 较 低 的 训练 误差 ， 过 拟 合 指 模型 的 训练 误差 远 小 于 它 在 测试 数据 集 上 
的 误差 。 

应 选择 复杂 度 合适 的 模型 并 避免 使 用 过 少 的 训练 样本 。 


练习 
(1) 如 果 用 一 个 三 阶 多 项 式 模 型 来 拟 合 一 个 线性 模型 生成 的 数据 ， 可 能 会 有 什么 问题 ? AHA? 
(2) 在 本 节 提 到 的 三 阶 多 项 式 拟 合 问题 里 ， 有 没有 可 能 把 100 个 样本 的 训练 误差 的 期 望 降 到 0， 
为 什么 ? (提示 : FRRPHZE.) 
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3:11 节 中 我 们 观察 了 过 拟 合 现象 ， 即 模型 的 训练 误差 远 小 于 它 在 测试 [m]; 
集 上 的 误差 。 虽 然 增 大 训练 数据 集 可 能 会 减轻 过 拟 合 ， 但 是 获取 额外 的 训 
练 数 据 往往 代价 高 昂 。 本 节 介 绍 应 对 过 拟 合 问题 的 常用 方法 Ae ak 


(weight decay ) 。 [m] 


3124. Fix 


权重 衰减 等 价 于 L, 范 数 正则 化 (regularization)。 正 则 化 通过 为 模型 损失 函数 添加 惩罚 项 
使 学 出 的 模型 参数 值 较 小 ， 是 应 对 过 拟 合 的 常用 手段 。 我 们 先 描 述 L, 范 数 正则 化 ， 再 解释 它 
FI AA] SOPRA BA TE VK o 

L, 范 数 正则 化 在 模型 原 损失 函数 基础 上 添加 L, 范 数 惩罚 项 ， 从 而 得 到 训练 所 需要 最 小 化 
的 函数 。L, 范 数 惩罚 项 指 的 是 模型 权重 参数 每 个 元 素 的 平方 和 与 一 个 正 的 常数 的 乘积 。 以 3.1 
节 中 的 线性 回归 损失 函数 


扫 码 直达 讨论 区 


"a 
© 
a 










n 
(Ww, w, b) = iF Lye m + Xx) Ww, 二 六 二 
ns 


为 例 ， 其 中 w, w 是 权重 参数 ，b 是 偏差 参数 ， 样 本 i 的 输入 为 x??, x2, WEN yO, PRB 
为 n。 将 权 昔 参数 用 癌 量 w=[w,w,] Ra, WA L, WARE TM Hin K BBA 


A 
Lw, w, b)+ |w? 
2n 


其 中 超 参数 4 > 0。 当 权重 参数 均 为 0 时 ， 惩 昼 项 最 小 。 当 4 较 大 时 ， 惩 罚 项 在 损失 函数 中 的 


“66。 第 3 章 深度 学 习 基 础 


比重 较 大 ， 这 通常 会 使 学 到 的 权重 参数 的 元 素 较 接近 0。 当 44 设 为 0 时， 惩罚 项 完全 不 起 作用 。 
ERP L 范 数 平方 lw 人 展开 后 得 到 Wi tw. AT L 范 数 惩罚 项 后 ， 在 小 批量 随机 梯度 下 降 
中 ， 我 们 将 3.1 PAE mA w ATE EA 


(i) p (i) (i) A 
m efi- a ge ( m +x VD +b-y*’) 


W efi- ra -jg Ble | xf) (xPw +x w, +b- y®) 
HI, L 范 数 正 则 化 令 权 重 内 和 了 邮 先 上 自 乘 小 于 1 的 数 ， 再 减 去 不 含 惩 罚 项 的 梯度 。 因 此 ， 

L, 范 数 正 则 化 又 叫 权重 衰减 。 权 重 衰 减 通过 惩罚 绝对 值 较 大 的 模型 参数 为 需要 学 习 的 模型 增加 

了 限制 ， 这 可 能 对 过 拟 合 有 效 。 实 际 场 景 中 ， 我 们 有 时 也 在 惩 哥 项 中 添加 偏差 元 素 的 平方 和 。 


3.12.2 高 维 线性 回归 实验 


下 面 ， 我 们 以 高 维 线性 回归 为 例 来 引入 一 个 过 拟 合 问题 ， 并 使 用 权重 衰减 来 应 对 过 拟 合 。 
设 数 据 样 本 特征 的 维度 为 p。 对 于 训练 数据 集 和 测试 数据 集中 特征 为 为, 2，,…, Xp 的 任 一 样本 ， 
我 们 使 用 如 下 的 线性 函数 来 生成 该 样本 的 标签 : 


p 
y=0.05+ > 0.01x; +e 
i=] 


其 中 噪声 项 < 服从 均值 为 0、 标准 差 为 0.01 的 正 态 分 布 。 为 了 较 容 易 地 观察 过 拟 合 ， 我 们 考 
虑 高 维 线性 回归 问题 ， 如 设 维度 p = 200 ; 同时， 我 们 特意 把 训练 数据 集 的 样本 数 设 低 ， 如 20。 


In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import data as gdata, loss as gloss, nn 


n_train, n_test, num_inputs = 20, 100, 200 
true_w, true_b = nd.ones((num_inputs, 1)) * 0.01, 0.05 


features = nd.random.normal(shape=(n_train + n_test, num_inputs) ) 
labels = nd.dot(features, true_w) + true_b 

labels += nd.random.normal(scale=0.01, shape=lLabels.shape) 
train_features, test_features = features[:n_train, :], features[n_train:, :] 
train_labels, test_labels = labels[:n_train], labels[n_train: ] 


3.12.3 ”从 零 开 始 实现 
下 面 先 介绍 从 零 开始 实现 权重 衰减 的 方法 。 我 们 通过 在 目标 函数 后 添加 厂 范 数 惩罚 项 来 
实现 权重 衰减 。 


1. 初始 化 模型 参数 
首先 ， 定 义 随 机 初始 化 模型 参数 的 函数 。 该 函数 为 每 个 参数 都 附 上 梯度 。 
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In [2]: def init_params(): 
w = nd.random.normal(scale=1, shape=(num_inputs, 1)) 
b = nd.zeros(shape=(1,)) 
w.attach_grad() 
b.attach_grad() 
return [w, b] 


2. 定义 L 范 数 惩罚 项 
下 面 定义 L 范 数 惩罚 项 。 这 里 只 惩罚 模型 的 权重 参数 。 


In [3]: def L2_penaLty(w) : 
return (w*x*2).sum() / 2 


3. 定义 训练 和 测试 


下 面 定 义 如 何在 训练 数据 集 和 测试 数据 集 上 分 别 训练 和 测试 模型 。 与 前 面 几 节 中 不 同 的 
是 ， 这 里 在 计算 最 终 的 损失 函数 时 添加 了 工 , RE TM. 


In [4]: batch_size, num_epochs, lr = 1, 100, 0.003 
net, loss = d2l.linreg, d21l.squared_loss 
train_iter = gdata.DataLoader (gdata.ArrayDataset ( 
train_features, train_labels), batch_size, shuffle=True) 


def fit_and_plot(lambd): 
w, b = init_params() 
train_ls, test_ls = [], [] 
for _ in range(num_epochs) : 
for X, y in train_iter: 
with autograd.record(): 
# 添加 了 L2 范 数 惩罚 项 
l = loss(net(X, w, b), y) + Lambd * 12_penalty(w) 
Ll. backward ( ) 
d2l.sgd([w, b], lr, batch_size) 
train_ls.append(loss(net(train_features, w, b), 
train_Labels) .mean().asscalar()) 
test_ls.append(loss(net(test_features, w, b), 
test_labels).mean().asscalar()) 
d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss', 
range(1, num_epochs + 1), test_ls, ['train', 'test']) 
print('L2 norm of w:', w.norm().asscalar()) 


4. 观察 过 拟 合 


接 下 来 ， 让 我 们 训练 并 测试 高 维 线性 回归 模型 。 当 Lambd 设 为 0 时 ， 我 们 没有 使 用 权重 
衰减 。 结 果 训 练 误差 远 小 于 测试 集 上 的 误差 。 这 是 典型 的 过 拟 合 现象 。 


In [5]: fit_and_plot(lambd=0) 


“68。 第 3 章 深度 学 习 基 础 


101 
10~? 


107° 


loss 


1078 


10711 





0 20 40 60 80 100 
epochs 


L2 norm of w: 11.611939 


5. 使 用 权重 衰减 


下 面 我 们 使 用 权重 衰减 。 可 以 看 出 ， 训 练 误差 虽然 有 所 提高 ， 但 测试 集 上 的 误差 有 所 下 
降 。 过 拟 合 现象 得 到 一 定 程 度 的 缓解 。 另 外 ， 权 重 参数 的 L 范 数 比 不 使 用 权重 衰减 时 的 更 小 ， 
此 时 的 权重 参数 更 接近 0。 


In [6]: fit_and_pLot(Lambd=3) 





0 20 40 60 80 100 
epochs 


L2 norm of w: 0.041881386 


3.12.4 简洁 实现 


这 里 我 们 直接 在 构造 Trainer 实例 时 通过 wd 参数 来 指定 权重 衰减 超 参 数 。 默 认 下 ， 
Gluon 会 对 权重 和 偏差 同时 衰减 。 我 们 可 以 分 别 对 权重 和 偏差 构造 Trainer 实例 ， 从 而 只 对 权 
重 衰减 。 
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In [7]: def fit_and_plot_gluon(wd): 
net = nn.Sequential() 
net.add(nn.Dense(1) ) 
net. initialize(init.Normal(sigma=1) ) 
# 对 权重 参数 衰减 。 权 重 名 称 一 般 是 以 weight 结 尾 
trainer_w = gluon.Trainer(net.collect_params('.*weight'), 'sgd', 
{'learning_rate': lr, 'wd': wd}) 
# 不 对 偏差 参数 衰减 。 偏 差 名 称 一 般 是 以 bias 结 尾 
trainer_b = gluon.Trainer(net.collect_params('.*bias'), 'sgd', 
{'learning_rate': lr}) 
tennis, test is 2.0). L 
for _ in range(num_epochs): 
for X, y in train_iter: 
with autograd.record(): 
l = loss(net(X), y) 
L. backward ( ) 
# 对 两 个 Trainer 实 例 分 别 调 用 step 函 数 ， 从 而 分 别 更 新 权重 和 偏差 
trainer_w.step(batch_size) 
trainer_b.step(batch_size) 
train_ls.append(loss(net(train_features) , 
train_labels) .mean().asscalar() ) 
test_ls.append(loss(net(test_features) , 
test_labels) .mean().asscalar()) 
d21.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss', 
range(1, num_epochs + 1), test_ls, [‘train', 'test']) 
print('L2 norm of w:', net[0].weight.data().norm().asscalar()) 


与 从 零 开 始 实现 权重 衰减 的 实验 现象 类 似 ， 使 用 权重 衰减 可 以 在 一 定 程度 上 缓解 过 拟 合 
问题 。 


In [8]: fit_and_plot_gluon(0) 
10 
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epochs 


L2 norm of w: 13.311797 


In [9]: fit_and_plot_gluon(3) 





0 20 40 60 80 100 
epochs 


正则 化 通过 为 模型 损失 函数 添加 惩罚 项 使 学 出 的 模型 参数 值 较 小 ， 是 应 对 过 拟 合 的 常用 
手段 。 

权重 衰减 等 价 于 Ly 范 数 正则 化 ， 通 常会 使 学 到 的 权重 参数 的 元 素 较 接 近 0。 

权重 衰减 可 以 通过 Gluon 的 wd 超 参 数 来 指定 。 

可 以 定义 多 个 Trainer 实例 对 不 同 的 模型 参数 使 用 不 同 的 迭代 方法 。 


(1) 回顾 一 下 训练 误差 和 泛 化 误差 的 关系 。 除 了 权重 衰减 、 增 大 训练 量 以 及 使 用 复杂 度 合适 的 
模型 ， 你 还 能 想到 哪些 办 法 来 应 对 过 拟 合 ? 

(2) 如 果 你 了 解 贝 叶 斯 统计 ， 你 觉得 权重 衰减 对 应 贝 叶 斯 统计 里 的 哪个 重要 概念 ? 

(3) 调节 实验 中 的 权重 衰减 超 参 数 ， 观 察 并 分 析 实验 结果 。 





3.13 EF 


(dropout) ”来 应 对 过 拟 合 问题 。 丢 弃 法 有 一 些 不 同 的 变 体 。 本 节 中 提 到 
的 丢弃 法 特 指 倒置 丢弃 法 〈inverted dropout). 





o.13.1. Fim 


回忆 一 下 ，3.8 节 的 图 3-3 描述 了 一 个 含 单 隐藏 层 的 多 层 感知 机 。 其 中 输入 个 数 为 4， 隐 藏 
单元 个 数 为 5， 且 隐藏 单元 h(i = 1,…,5) 的 计算 表达 式 为 


hi= xW; + XW; + X3Wz; + Xawai + 5;) 


313 KARR <TH 


XE g BORA, Hy 是 输入 ， 隐 藏 单元 i 的 权重 参数 为 Wi;,…, Wio MWEZA bio 4 
对 该 隐藏 层 使 用 丢弃 法 时 ， 该 层 的 隐藏 单元 将 有 一 定 概 率 被 丢弃 掉 。 设 丢弃 概率 为 p， 那 么 
有 pp 的 概率 名 会 被 清 零 ， 有 1-p 的 概率 名 会 除 以 1-p 做 拉 伸 。 丢弃 概率 是 丢弃 法 的 超 参数 。 
具体 来 说 ， 设 随机 变量 6; 为 0 和 1 的 概率 分 别 为 p 和 1-p。 使 用 丢弃 法 时 我 们 计算 新 的 隐 纠 
单元 


由 于 E(¢;)=1-p, 因此 


E(h;) = FAS)», =h; 
1p 
即 丢 弃 法 不 改变 其 输入 的 期 望 值 。 让 我 们 对 图 3-3 中 的 隐藏 层 使 用 丢弃 法 ， 一 种 可 能 的 结果 
如 图 3-5 所 示 ， 其 中 如 和 甩 被 清 零 。 这 时 输出 值 的 计算 不 再 依赖 如 和 有， 在 反 同 传播 时 ， 与 
这 两 个 隐藏 单元 相关 的 权重 的 梯度 均 为 0。 由 于 在 训练 中 隐藏 层 神经 元 的 丢弃 是 随机 的 ， 即 
有 ,…, hs 都 有 可 能 被 清 零 ， 输 出 层 的 计算 无 法 过 度 依赖 月 ,…, hs 中 的 任 一 个 ， 从 而 在 训练 模型 
时 起 到 正则 化 的 作用 ， 并 可 以 用 来 应 对 过 拟 合 。 在 测试 模型 时 ， 我 们 为 了 得 到 更 加 确定 性 的 结 
果 ， 一 般 不 使 用 丢弃 法 。 


输出 层 


隐藏 层 


输入 层 





3-5 ”隐藏 层 使 用 了 丢弃 法 的 多 层 感知 机 


3.13.2 ”从 零 开始 实现 


根据 丢弃 法 的 定义 ， 我 们 可 以 很 容易 地 实现 它 。 下 面 的 dropout 函数 将 以 drop_prob 的 
概率 丢弃 NDArray WA X 中 的 元 素 。 
In [1]: import d2Lzh as d2l 


from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import loss as gloss, nn 


def dropout(X, drop_prob): 
assert © <= drop_prob <= 1 
keep_prob = 1 - drop_prob 
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# 这 种 情况 下 把 全 部 元 素 都 丢弃 
if keep_prob == 0: 
return X.zeros_like() 
mask = nd.random.uniform(0, 1, X.shape) < keep_prob 
return mask * X / keep_prob 


我 们 运行 几 个 例子 来 测试 一 下 dropout 函数 ， 其 中 丢弃 概率 分 别 为 0、0.5 和 1. 


E LAIS 


Out[2]: 


In [3]: 


Out[3]: 


In [4]: 


Out[4]: 


X = nd.arange(16).reshape((2, 8)) 
dropout(X, 0) 


ri @. is 25 (3s. 4. SnO 
[ $. 9...10: 11: 12255 Fr. 250 
<NDArray 2x8 @cpu(0)> 


dropout(X, 0.5) 

if 全 AGE OF 283514 iS 
E 18. 6,  @. 24, 2a ae. 8.) 1) 

<NDArray 2x8 @cpu(0)> 

dropout(X, 1) 

(fo. 0. 0. 0. 0. 0. 0. 0.) 


fs. 8. 6. U V OAT CEN 
<NDArray 2x8 @cpu(0)> 


1. 定义 模型 参数 


实验 中 ， 我 们 依然 使 用 3.5 节 中 介绍 的 Fashion-MNIST 数据 集 。 我 们 将 定义 一 个 包含 两 个 
隐藏 层 的 多 层 感知 机 ， 其 中 两 个 隐藏 层 的 输出 个 数 都 是 256。 


In [5]: num_inputs, num_outputs, num_hiddensl, num_hiddens2 = 784, 10, 256, 256 


W1 = nd.random.normal(scale=0.01, shape=(num_inputs, num_hiddens1) ) 
bl = nd.zeros(num_hiddens1) 

W2 = nd.random.normal(scale=0.01, shape=(num_hiddens1l, num_hiddens2) ) 
b2 = nd.zeros(num_hiddens2) 

W3 = nd.random.normal(scale=0.01, shape=(num_hiddens2, num_outputs) ) 
b3 = nd.zeros(num_outputs) 


params = [W1, bl, W2, b2, W3, b3] 
for param in params: 
param.attach_grad() 


2. 定义 模型 
下 面 定 义 的 模型 将 全 连接 层 和 激活 函数 ReLU 串 起 来 ， 并 对 每 个 激活 函数 的 输出 使 用 丢弃 
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法 。 我 们 可 以 分 别 设置 各 个 层 的 丢弃 概率 。 通 常 的 建议 是 把 靠近 输入 层 的 丢弃 概率 设 得 小 一 
点 。 在 这 个 实验 中 ， 我 们 把 第 一 个 隐藏 层 的 丢弃 概率 设 为 0.2， 把 第 二 个 隐藏 层 的 丢弃 概率 设 
为 0.5。 我 们 可 以 通过 2.3 节 中 介绍 的 is_training 函数 来 判断 运行 模式 为 训练 还 是 测试 ， 并 
只 需 在 训练 模式 下 使 用 丢弃 法 。 


In [6]: drop_prob1, drop_prob2 = 0.2, 0.5 


def net(X): 
X = X.reshape((-1, num_inputs) ) 
H1 = (nd.dot(X, W1) + b1).relu() 
if autograd.is_training(): # 只 在 训练 模型 时 使 用 丢弃 法 
H1 = dropout(H1, drop_probl) # 在 第 一 层 全 连接 后 添加 丢弃 层 
H2 = (nd.dot(H1, W2) + b2).relu() 
if autograd.is_training(): 
H2 = dropout(H2, drop_prob2) # 在 第 二 层 全 连接 后 添加 丢弃 层 
return nd.dot(H2, W3) + b3 


3. 训练 和 测试 模型 
这 部 分 与 之 前 多 层 感 知 机 的 训练 和 测试 类 似 。 


In [7]: num_epochs, lr, batch_size = 5, 0.5, 256 
loss = gloss.SoftmaxCrossEntropyLoss() 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size) 
d21l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, 
params, lr) 


epoch 1, loss 1.2260, train acc 
epoch 2, loss 0.6336, train acc 
epoch 3, loss 0.5147, train acc 
epoch 4, loss 0.4648, train acc 
epoch 5, loss 0.4362, train acc 


-526, test acc 0.759 
./65, test acc 0.795 
test acc 0.845 
.830, test acc 0.861 
.840, test acc 0.852 


Oo © © © © 
co 
r 
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在 Gluon 中 ， 我 们 只 需要 在 全 连接 层 后 添加 Dropout 层 并 指定 丢弃 概率 。 在 训练 模型 时 ， 
Dropout 层 将 以 指定 的 丢弃 概率 随机 丢弃 上 一 层 的 输出 元 素 ; 在 测试 模型 时 ，Dropout 层 并 不 
发 挥 作用 。 


In [8]: net = nn.Sequential() 
net.add(nn.Dense(256, activation="relu"), 
nn.Dropout(drop_probl), # 在 第 一 个 全 连接 层 后 添加 丢弃 层 
nn.Dense(256, activation="relu"), 
nn.Dropout(drop_prob2), # 在 第 二 个 全 连接 层 后 添加 丢弃 层 
nn.Dense(10)) 
net.initialize(init.Normal(sigma=0.01)) 


下 面 训练 并 测试 模型 。 
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In [9]: trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, 
None, trainer) 


epoch 1, loss 1.1863, train acc 0.542, test acc 0.765 
epoch 2, loss 0.5867, train acc 0.782, test acc 0.839 
epoch 3, loss 0.4947, train acc 0.821, test acc 0.857 
epoch 4, loss 0.4476, train acc 0.839, test acc 0.865 
epoch 5, loss 0.4224, train acc 0.845, test acc 0.864 


小 结 
。 我 们 可 以 通过 使 用 丢弃 法 应 对 过 拟 合 。 
。 丢弃 法 只 在 训练 模型 时 使 用 。 


练习 


(1) 如 果 把 本 节 中 的 两 个 丢弃 概率 超 参 数 对 调 ， 会 有 什么 结果 ? 

(2) 增 大 迭代 周期 数 ， 比 较 使 用 丢弃 法 与 不 使 用 丢弃 法 的 结果 。 

(3) 如 果 将 模型 改 得 更 加 复杂 ， 如 增加 隐藏 层 单元 ， 使 用 丢弃 法 应 对 过 拟 合 的 效果 是 否 更 加 明显 ? 

(4) 以 本 节 中 的 模型 为 例 ， 比 较 使 用 丢弃 法 与 权重 衰减 的 效果 。 如 果 同 时 使 用 丢弃 法 和 权重 衰 
碱 ， 效 果 会 如 何 ? 





3.14” 正 向 传播 、 反 向 传播 和 计算 图 


前 面 几 节 里 我 们 使 用 了 小 批量 随机 梯度 下 降 的 优化 算法 来 训练 模型 。 [m]; [m] 
在 实现 中 ， 我 们 只 提供 了 模型 的 正 同 传播 的 计算 ， 即 对 输入 计算 模型 输出 ， : 
然后 通过 autograd 模块 来 调用 系统 自动 生成 的 backward 函数 计算 梯度 。 | 
基于 反问 传播 算法 的 自动 求 梯度 极 大 简化 了 深度 学 习 模 型 训练 算法 的 实现 。 
本 节 我 们 将 使 用 数学 来 描述 正 同 传播 和 反 向 传播 。 具 体 来 说 ， 我 们 将 以 带 
L, 范 数 正 则 化 的 含 单 隐 藏 层 的 多 层 感 知 机 为 样 例 模型 解释 正 同 传播 和 反 回 传播 。 










3.14.1 正 回 传播 


正 向 传播 〈forward-propagation) 是 指 对 神经 网 络 沿 着 从 输入 层 到 输出 层 的 顺序 ， 依 次 计 
算 并 存储 模型 的 中 间 变 量 (包括 输出 )。 为 简单 起 见 ， 假 设 输 入 是 一 个 特征 为 xe RY 的 样本 ， 
且 不 考虑 偏差 项 ， 那 么 中 间 变 量 
z=W®x 


Ep pO eR” 是 隐藏 层 的 权重 参数 。 把 中 间 变 量 z e R" 输入 按 元 素 运 算 的 激活 函数 9 后 ， 将 
得 到 同 量 长 度 为 h 的 隐藏 层 变量 
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h = $(z) 
隐藏 层 变量 h 也 是 一 个 中 间 变 量 。 假 设 输出 层 参数 只 有 权重 WO ERM, BT LAGEI SK REA 
q 的 输出 层 变 量 

o=W°®h 

假设 损失 函数 为 4， 且 样本 标签 为 ?， 可 以 计算 出 单个 数据 样本 的 损失 项 

L = £(0, y) 

根据 L 范 数 正则 化 的 定义 ， 给 定 超 参数 14， 正则 化 项 即 
s =Z UWO RHIO 

其 中 和 矩阵 的 Frobenius 范 数 等 价 于 将 矩阵 变 平 为 癌 量 后 计算 L 范 数 。 最 终 ， 模 型 在 给 定 的 数据 
样本 上 带 正 则 化 的 损失 为 

J=L+s 
我 们 将 7 称 为 有 关 给 定数 据 样本 的 目标 函数 ， 并 在 以 下 的 讨论 中 简称 目标 函数 。 


3.14.2 正 向 传播 的 计算 图 


我 们 通常 绘制 计算 图 (computational graph) 来 可 视 化 运算 符 和 变量 在 计算 中 的 依赖 关系 。 
图 3-6 绘制 了 本 市 中 样 例 模型 正 癌 传播 的 计算 图 ， 其 中 左下 角 是 输入 ， 右 上 角 是 输出 。 可 以 
看 到 ， 图 中 箭头 方向 大 多 是 回 右 和 癌 上 ， 其 中 方 框 代 表 变 量 ， 圆 圈 代 表 运 算 符 ， 箭 头 表示 从 
输入 到 输出 之 间 的 依赖 关系 。 





3-6 正 回 传播 的 计算 图 


3.14.3 REEE 


反 向 传播 (back-propagation) 指 的 是 计算 神经 网 络 参数 梯度 的 方法 。 总 的 来 说 ， 反 回 传 播 
依据 微 积 分 中 的 链 式 法 则 ， 沿 着 从 输出 层 到 输入 层 的 顺序 ， 依 次 计算 并 存储 目标 函数 有 关 神 经 
网 络 各 层 的 中 间 变 量 以 及 参数 的 梯度 。 对 输入 或 输出 X, Y, Z 为 任意 形状 张 量 的 函数 Y=f(X) 和 
Z=g(Y)， 通 过 链 式 法 则 ， 我 们 有 
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OZ Z, X) 
— = prod 
OX OY OX 


其 中 prod 运算 符 将 根据 两 个 输入 的 形状 ， 在 必要 的 操作 (如 转 置 和 互 换 输入 位 置 ) 后 对 两 个 
输入 做 乘法 。 


回顾 一 下 本 节 中 样 例 模型 ， 它 的 参数 是 万 和 邢 中 ， 因 此 反 向 传播 的 目标 是 计算 8J/6W 
和 a7/6 丈 包 。 我 们 将 应 用 链 式 法 则 依次 计算 各 中 间 变 量 和 参数 的 梯度 ， 其 计算 次 序 与 前 向 传 
播 中 相应 中 间 变 量 的 计算 次 序 恰恰 相反 。 首 先 ， 分 别 计算 目标 函数 了 =L+s 有 关 损 失 项 工 和 
正则 项 s 的 梯度 
a a 
a Tia 
其 次 ， 依 据 链 式 法 则 计算 目标 函数 有 关 输 出 层 变 量 的 梯度 Q7/6o € R: 


& a| Z, = |- ôL 





Co OL Oo Co 
接 下 来 ， 计 算 正 则 项 有 关 两 个 参数 的 梯度 : 
Os A (1) Os Pe (2) 
wo > aya“ 


现在 ， 我 们 可 以 计算 最 靠近 输出 层 的 模型 参数 的 梯度 OT /OW ERE. RI BERAN, 
得 到 


oJ it oJ Oo oJ Os oJ T (2) 
aw? g prod| 2 aw 2) | $ prod| Z, aw ® J o —— h + AW 


沿 着 输出 层 向 隐藏 层 继续 反 向 传播 ， 隐 藏 层 变 量 的 梯度 a7/6h e RY 可 以 这 样 计算 : 


2 a2, 28) aor 2 
Oh Oo Oh 00 

由 于 激活 函数 p 是 按 元 素 运算 的 ， 中 间 变 量 z 的 梯度 6J/6z e R” 的 计算 需要 使 用 按 元 素 乘 
法 符 O: 
Os | OJ oh) ðJ 
he = proa &, 2 r$ 2) & © ¢'(z) 

最 终 ， 我 们 可 以 得 到 最 靠近 输入 层 的 模型 参数 的 梯度 a/ow eR”. Ki EDIE, 
得 到 


aig prod Z, mad + prod + Aw") 


OJ Os oy ot 
ow) dz ow) | ae 


és aw) oz 
3.14.4 训练 深度 学 习 模型 


在 训练 深度 学 习 模 型 时 ， 正 向 传播 和 反问 传播 之 间 相 互 依赖 。 下 面 我 们 仍然 以 本 节 中 的 样 
例 模型 分 别 阐 述 它 们 之 间 的 依赖 关系 。 
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一 方面 ， 正 向 传播 的 计算 可 能 依赖 于 模型 参数 的 当前 值 ， 而 这 些 模型 参数 是 在 反 向 传播 的 
梯度 计算 后 通过 优化 算法 迭代 的 。 例 如 ， 计 算 正则 化 项 = (22)( 栋 @2 + |W O12) 依赖 模 
型 参数 刺 0 和 了 球 O 的 当前 值 ， 而 这 些 当 前 值 是 优化 算法 最 近 一 次 根据 反 向 传播 算出 梯度 后 和 迭 
代 得 到 的 。 


另 一 方面 ， 反 向 传播 的 梯度 计算 可 能 依赖 于 各 变量 的 当前 值 ， 而 这 些 变量 的 当前 值 是 通过 
正 向 传播 计算 得 到 的 。 举 例 来 说 ， 参 数 梯度 O/OW™ =(AJ/do)h' +AW® 的 计算 需要 依赖 隐 
藏 层 变量 的 当前 值 x。 这 个 当前 值 是 通过 从 输入 层 到 输出 层 的 正 向 传播 计算 并 存储 得 到 的 。 


因此 ， 在 模型 参数 初始 化 完成 后 ， 我 们 交 苦 地 进行 正 回 传播 和 反 回 传播 ， 并 根据 反 回 传播 
计算 的 梯度 友 代 模型 参数 。 既 然 我 们 在 反 回 传播 中 使 用 了 正 回 传播 中 计算 得 到 的 中 间 变 量 来 避 
免 重 复 计 算 ， 那么 这 个 复 用 也 导致 正 同 传播 结束 后 不 能 立即 释放 中 间 变 量 内 存 。 这 也 是 训练 要 
比 预 测 占 用 更 多 内 存 的 一 个 重要 原因 。 男 外 需要 指出 的 是 ， 这 些 中 间 变 量 的 个 数 大 体 上 与 网 络 
层 数 线性 相关 ， 每 个 变量 的 大 小 与 批量 大 小 和 输入 个 数 也 是 线性 相关 的 ， 它 们 是 导致 较 深 的 神 
经 网 络 使 用 较 大 批量 训练 时 更 容易 超 内 存 的 主要 原因 。 


小 结 
© 正 向 传播 沿 着 从 输入 层 到 输出 层 的 顺序 ， 依 次 计算 并 存储 神经 网 络 的 中 间 变 量 。 
© 反 向 传播 沿 着 从 输出 层 到 输入 层 的 顺序 ， 依 次 计算 并 存储 神经 网 络 的 中 间 变 量 和 参数 的 梯度 。 
© 在 训练 深度 学 习 模 型 时 ， 正 向 传播 和 反 向 传播 相互 依赖 。 


练习 
在 本 节 样 例 模型 的 隐藏 层 和 输出 层 中 添加 偏差 参数 ， 修 改 计算 图 以 及 正 向 传播 和 反 向 传播 的 数 
学 表达 式 。 





3.15 ”数值 稳定 性 和 模型 初始 化 


理解 了 正 向 传播 与 反 向 传播 以 后 ， 我 们 来 讨论 一 下 深度 学 习 模 型 的 数 lit, 
值 稳定 性 问题 以 及 模型 参数 的 初始 化 方法 。 深 度 模 型 有 关 数 值 稳定 性 的 典 “ 是 ri 
型 问题 是 衰减 (vanishing) 和 爆炸 (explosion). 









3.15.1 衰减 和 爆炸 


当 神 经 网 络 的 层 数 较 多 时 ， 模 型 的 数值 稳定 性 容易 变 差 。 假 设 一 个 层 数 为 工 的 多 层 感知 机 
的 第 1 层 AOMRMBBRAW®, HHE AY 的 权重 参数 为 丈 %。 为 了 便于 讨论 ， 不 考虑 偏 
差 参 数 ， 且 设 所 有 隐藏 层 的 激活 函数 为 恒 等 映 射 (identity mapping) bz) =x. REMAX, Z 
层 感 知 机 的 第 1 层 的 输出 HO =xwOxw ..w., IN, WREAK, AO 的 计算 可 
会 出 现 衰减 或 爆炸 。 举 个 例子 ， 假 设 输入 和 所 有 层 的 权重 参数 都 是 标量 ， 如 权重 参数 为 0.2 


“78。 第 3 章 深度 学 习 基 础 


和 5， 多 层 感 知 机 的 第 30 层 输 出 为 输入 天 分 别 与 0.2" = 1x10” CER) A 5°” = 9 x 10° (爆炸 ) 
的 乘积 。 类 似 地 ， 当 层 数 较 多 时 ， 梯 度 的 计算 也 更 容易 出 现 衰减 或 爆炸 。 


随 着 内 容 的 不 断 深入 ， 我 们 会 在 后 面 的 章节 进一步 介绍 深度 学 习 的 数值 稳定 性 问题 以 及 解 
决 方法 。 


3.15.2 随机 初始 化 模型 参数 
在 神经 网 络 中 ， 通 常 需要 随机 初始 化 模型 参数 。 下 面 我 们 来 解释 这 样 做 的 原因 。 


回顾 3.8 节 图 3-3 描述 的 多 层 感 知 机 。 为 了 方便 解释 ， 假 设 输出 层 只 保留 一 个 输出 单元 o 
HE o, Allo; 以 及 指向 它们 的 箭头 )， 且 隐藏 层 使 用 相同 的 激活 函数 。 如 果 将 每 个 隐藏 单元 的 
参数 都 初始 化 为 相等 的 值 ， 那 么 在 正 向 传播 时 每 个 隐藏 单元 将 根据 相同 的 输入 计算 出 相同 的 
值 ， 并 传递 至 输出 层 。 在 反 向 传播 中 ， 每 个 隐藏 单元 的 参数 梯度 值 相等 。 因 此 ， 这 些 参数 在 使 
用 基于 梯度 的 优化 算法 和 欠 代 后 值 依然 相等 。 之 后 的 迭代 也 是 如 此 。 在 这 种 情况 下 ， 无 论 隐藏 单 
元 有 多 少 ， 隐 藏 层 本 质 上 只 有 1 个 隐藏 单元 在 发 挥 作用 。 因 此 ， 正 如 在 前 面 的 实验 中 所 做 的 那 
样 ， 我 们 通常 对 神经 网 络 的 模型 参数 ， 特 别 是 权重 参数 ， 进 行 随机 初始 化 。 


1. MXNet 的 默认 随机 初始 化 


随机 初始 化 模型 参数 的 方法 有 很 多 。 在 3.3 节 中 ， 我 们 使 用 net.initialize(init. 
Normal (sigma=0.01)) 使 模型 net 的 权重 参数 采用 正 态 分 布 的 随机 初始 化 方式 。 如 果 不 指定 初 
始 化 方法 ， 如 net.initialize()，MXNet 将 使 用 默认 的 随机 初始 化 方法 : 权重 参数 每 个 元 素 
随机 采样 于 -0.07 到 0.07 之 间 的 均匀 分 布 ， 偏 差 参 数 全 部 清 零 。 


2. Xavier 随 机 初始 化 


还 有 一 种 比较 常用 的 随机 初始 化 方法 叫 作 Xavier 随机 初始 化 ""。 假 设 某 全 连接 层 的 输入 
个 数 为 a， 输 出 个 数 为 5，Xavier 随机 初始 化 将 使 该 层 中 权重 参数 的 每 个 元 素 都 随机 采样 于 均 


习 分 布 
4 图 6 | 6 
a+b Nath 


它 的 设计 主要 考虑 到 ， 模 型 参数 初始 化 后 ， 每 层 输出 的 方差 不 该 受 该 层 输 入 个 数 影响 ， 且 
每 层 梯度 的 方差 也 不 该 受 该 层 输出 个 数 影响 。 








小 结 
© 深度 模型 有 关 数 值 稳定 性 的 典型 问题 是 衰减 和 爆炸 。 当 神经 网 络 的 层 数 较 多 时 ， 模 型 的 数值 


稳定 性 容易 变 差 。 
© 我 们 通常 需要 随机 初始 化 神经 网 络 的 模型 参数 ， 如 权重 参数 。 
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练习 
(1) 有 人 说 随机 初始 化 模型 参数 是 为 了 “打破 对 称 性 ”。 这 里 的 “对 称 ” 应 如 何 理解 ? 


(2) 是 否 可 以 将 线性 回归 或 softmax 回归 中 所 有 的 权重 参数 都 初始 化 为 相同 值 ? 
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作为 深度 学 习 基 础 篇 章 的 总 结 ， 我 们 将 对 本 章 内 容 学 以 臻 用。 下 面 ， 
让 我 们 动手 实战 一 个 Kaggle 比赛 一 一 房价 预测 。 本 节 将 提供 未 经 调 优 的 数 
据 的 预 处 理 、 模 型 的 设计 和 超 参 数 的 选择 。 我 们 希望 读者 通过 动手 操作 、 
仔细 观察 实验 现象 、 认 真 分 析 实 验 结果 并 不 断 调整 方法 ， 得 到 令 自 己 满意 
的 结果 。 





3.16.1 Kaggle 比 赛 


Kaggle 是 一 个 著名 的 供 机 器 学 习 爱 好 者 交流 的 平台 。 图 3-7 展示 了 Kaggle 网 站 的 首页 。 
为 了 便于 提交 结果 ， 需 要 注册 Kaggle 账号 。 


Kaggle is the place to do data 
science projects Sign up with just one click: 


We won't share anything without your permission 
See how it works ®© 


| | 
Google | Facebook | Yahoo 


Manually create an account: 


Password 


Sign Up 


图 3-7 Kaggle 网 站 的 首页 


我 们 可 以 在 房价 预测 比赛 的 网 页 上 了 解 比赛 信息 和 参赛 者 成 绩 ， 也 可 以 下 载 数 据 集 并 
提交 目 己 的 预测 结果 。 该 比赛 的 网 页 地 址 是 https://www.kaggle.com/c/house-prices-advanced- 


regression-techniques o 


图 3-8 展示 了 房价 预测 比赛 的 网 页 信息 。 





House Prices: Advanced Regression Techniques 


Predict sales prices and practice feature engineering, RFs, and gradient boosting 


5,012 teams - Ongoing 


Overview Data Kernels Discussion Leaderboard Rules Team My Submissions Submit Predictions 


Overview 


Description Start here if... 


Evaluation You have some experience with R or Python and machine learning basics. This is a perfect competition 


Frequently Asked _ for data science students who have completed an online course in machine learning and are looking to 
Questions expand their skill set before trying a featured competition. 





Tutorials Competition Description 


3-8 ”房价 预测 比赛 的 网 页 信息 。 比 赛 数据 集 可 通过 点 击 “Data” 标 签 获取 


3.16.2 ” 读 取 数据 集 


比赛 数据 分 为 训练 数据 集 和 测试 数据 集 。 两 个 数据 集 都 包括 每 栋 房 子 的 特征 ， 如 街道 类 
型 、 建 造 年 份 、 房 顶 类 型 、 地 下 室 状 况 等 特征 值 。 这 些 特征 值 有 连续 的 数字 、 离 散 的 标签 甚至 
是 缺失 值 “na”。 只 有 训练 数据 集 包 括 了 每 栋 房 子 的 价格 ， 也 就 是 标签 。 我 们 可 以 访问 比赛 网 
页 ， 点 击 图 3-8 中 的 “Data” 标 签 ， 并 下 载 这 些 数据 集 。 | 

我 们 将 通过 pandas 库 读 取 并 处 理 数据 。 在 号 入 本 市 需要 的 包 前 请 确保 CL 48 pandas 库 ， 
否则 请 参考 下 面 的 代码 注释 。 

In [1]: # 如 果 没 有 安装 pandas ， 则 反 注 释 下 面 一 行 


# !pip install pandas 


%matplotlib inline 

import d2lzh as d2l 

from mxnet import autograd, gluon, init, nd 

from mxnet.gluon import data as gdata, loss as gloss, nn 
import numpy as np 

import pandas as pd 


解压 后 的 数据 位 于 . ./data 目录 ， 它 包括 两 个 csv 文件 。 下 面 使 用 pandas 读 取 这 两 个 文件 。 


In [2]: train_data = pd.read_csv('../data/kaggle_house_pred_train.csv') 
test_data = pd.read_csv('../data/kaggle_house_pred_test.csv') 


训练 数据 集 包 括 1 460 个 样本 、80 个 特征 和 1 个 标签 。 


In [3]: train_data.shape 


Out[3]: (1460, 81) 


测试 数据 集 包 括 1 459 个 样本 和 80 个 特征 。 我 们 需要 将 测试 数据 集中 每 个 样本 的 标签 预测 出 来 。 


3.16 “实战 Kaggle 比赛 : 房价 预测 + 81° 


In [4]: test_data.shape 


Out[4]: (1459, 80) 


让 我 们 来 查看 前 4 个 样本 的 前 4 个 特征 、 后 2 个 特征 和 标签 〈S$SalePrice ): 


In [5]: train data. Lloc(6:4,..16, 1, 2, 3, -3, <2; = 上 


Out[5]: Id MSSubClass MSZoning LotFrontage SaleType SaleCondition SalePrice 
© 41 60 RL 65.0 wD Normal 208500 
1 2 20 RL 80.0 wD Normal 181500 
i 3 60 RL 68.0 WD Normal 223500 
3 < 70 RL 60.0 WD Abnorml 140000 


可 以 看 到 第 一 个 特征 是 4， 它 能 帮助 模型 记 住 每 个 训练 样本 ， 但 难以 推广 到 测试 样本 ， 所 
以 我 们 不 使 用 它 来 训练 。 我 们 将 所 有 的 训练 数据 和 测试 数据 的 79 个 特征 按 样 本 连结 。 


In [6]: all_features = pd.concat((train_data.iloc[:, 1:-1], test_data.iloc[:, 1:])) 


3.16.3” 预 处 理 数 据 集 


我 们 对 连续 数值 的 特征 做 标准 化 (standardization): 设 该 特征 在 整个 数据 集 上 的 均值 为 u, 
标准 雳 为 ao。 那么 ， 我 们 可 以 将 该 特征 的 每 个 值 先 减 去 4 再 除 以 o 得 到 标准 化 后 的 每 个 特征 值 。 
对 于 缺失 的 特征 值 ， 我 们 将 其 蔡 换 成 该 特征 的 均值 。 

In [7]: numeric_features = all_features.dtypes[all_features.dtypes != 'object']. index 

all_features[numeric_features] = all_features[numeric_features].apply ( 
lambda x: (x - x.mean()) / (x.std())) 

# 标准 化 后 ， 每 个 特征 的 均值 变 为 96 ， 所 以 可 以 直接 用 6 来 替换 缺失 值 

all_features[numeric_features] = all_features[numeric_features].fillna(0) 

接 下 来 将 离散 数值 转 成 指示 特征 。 举 个 例子 ， 假 设 特征 MSZoning 里 面 有 两 个 不 同 的 
离散 值 RL 和 RM， 那么 这 一 步 转换 将 去 掉 MSZoning 特征 ， 并 新 加 两 个 特征 MSZoning 
RL 和 MSZoning RM， 其 值 为 0 或 1。 如 果 一 个 样本 原来 在 MSZoning £ WE RL, WA 
有 MSZoning RL= 1 H. MSZoning RM = 0。 

In [8]: # dummy_na=True 将 缺失 值 也 当 作 合法 的 特征 值 并 为 其 创建 指示 特征 


all_features = pd.get_dummies(all_features, dummy_na=True) 
all_features.shape 


Out[8]: (2919, 331) 
可 以 看 到 这 一 步 转换 将 特征 数 从 79 增加 到 了 331. 
最 后 ， 通 过 values 属性 得 到 NumPy 格式 的 数据 ， 并 转 成 NDArray 方便 后 面 的 训练 。 


In [9]: n_train = train_data.shape[0] 
train_features = nd.array(all_features[:n_train].values) 
test_features = nd.array(all_features[n_train: ].values) 
train_labels = nd.array(train_data.SalePrice.values).reshape((-1, 1)) 


“82。 第 3 章 深度 学 习 基础 





3.16.4 ”训练 模型 
我 们 使 用 一 个 基本 的 线性 回归 模型 和 平方 损失 函数 来 训练 模型 。 


In [10]: loss = gloss.L2Loss() 


def get_net(): 
net = nn.Sequential() 
net.add(nn.Dense(1) ) 
net. initialize() 
return net 


下 面 定 义 比赛 用 来 评价 模型 的 对 数 均 方 根 误 差 。 给 定 预 测 值 YY, 和 对 应 的 真实 标签 


J Ynys 它 的 定义 为 
Dos0) -toeG)y 
ge 
对 数 均 方 根 误差 的 实现 如 下 : 


In [11]: def log_rmse(net, features, labels): 
# 将 小 于 1 的 值 设 成 1， 使 得 取 对 数 时 数值 更 稳定 
clipped_preds = nd.clip(net(features), 1, float('inf')) 
rmse = nd.sqrt(2 * loss(clipped_preds.log(), labels. log()).mean()) 
return rmse.asscalar() 


下 面 的 训练 函数 与 本 章 中 前 几 节 的 不 同 在 于 使 用 了 Adam 优化 算法 。 相 对 之 前 使 用 的 小 批 
量 随 机 梯度 下 降 ， 它 对 学 习 率 相对 不 那么 敏感 。 我 们 将 在 7.8 节 详 细 介 绍 它 。 


In [12]: def train(net, train_features, train_labels, test_features, test_lLabels, 
num_epochs, learning_rate, weight_decay, batch_size): 
train_ls, test_ls = [], [J] 
train_iter = gdata.DataLoader (gdata.ArrayDataset ( 
train_features, train_labels), batch_size, shuffle=True) 
# 这 里 使 用 了 Adam 优 化 算法 
trainer = gluon.Trainer(net.collect_params(), 'adam', { 
'learning_rate': lLearning_rate, 'wd': weight_decay}) 
for epoch in range(num_epochs) : 
for X, y in train_iter: 
with autograd.record(): 
l = loss(net(X), y) 
L. backward () 
trainer.step(batch_size) 
train_ls.append(log_rmse(net, train_features, train_labels) ) 
if test_labels is not None: 
test_ls.append(log_rmse(net, test_features, test_labels) ) 
return train_ls, test_ls 


3.16.5 ”人 折 交 叉 验 证 
我 们 在 3.11 节 中 介绍 了 k 折 交叉 验证 。 它 将 被 用 来 选择 模型 设计 并 调节 超 参 数 。 下 面 实 
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现 了 一 个 函数 ， 它 返回 第 1i 折 交叉 验证 时 所 需要 的 训练 和 验证 数据 。 


In [13]: def get_k_fold_data(k, i, X, y): 
assert k > 1 
fold_size = X.shape[0] // k 
X_train, y_train = None, None 
for j in range(k): 
idx = slice(j * fold_size, (j + 1) * fold_size) 
X_part, y_part = X[idx, :], y{lidx] 
if j == i 
X_valid, y_valid = X_part, y_part 
elif X_train is None: 


X_train, y_train 
else: 


X_part, y_part 


X_train = nd.concat(X_train, X_part, dim=0) 
y_train = nd.concat(y_train, y_part, dim=0) 
return X_train, y_train, X_valid, y_valid 


TE. k PAS GUE PBT VIA k ORFF IE E VI AR AE HY OP RZ 


In [14]: def k_fold(k, X_train, y_train, num_epochs, 
learning_rate, weight_decay, batch_size): 
train_l_sum, valid_l_sum = 0, 0 
for i in range(k): 
data = get_k_fold_data(k, i, X_train, y_train) 
net = get_net() 
train_ls, valid_ls = train(net, *data, num_epochs, lLearning_rate, 
weight_decay, batch_size) 
train_l_sum += train_ls[-1] 
valid_l_sum += valid_ls[-1] 
if i == 
d21.semilogy(range(1, num_epochs + 1), train_ls, '‘epochs', 'rmse', 
range(1, num_epochs + 1), valid_ls, 
['train', 'valid']) 
print('fold %d, train rmse %f, valid rmse %f' 
% (1, train_ls[-1], valid_ls[-1])) 
return train_l_sum / k, valid_l_sum / k 


3.16.6 “模型 选择 


我 们 使 用 一 组 未 经 调 优 的 超 参数 并 计算 交叉 验证 误 产 。 可 以 改动 这 些 超 参数 来 尽 可 能 减 小 
平均 测试 误差 。 


In [15]: k, num_epochs, lr, weight_decay, batch_size = 5, 100, 5, 0, 64 
train_l, valid_l = k_fold(k, train_features, train_labels, num_epochs, lr, 
weight_decay, batch_size) 
print('%d-fold validation: avg train rmse %f, avg valid rmse %f' 
% (k, train_l, valid_L)) 
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rmse 





0 20 40 60 80 100 
epochs 


.169686, valid rmse 0.157010 
fold 1, train rmse 0.162097, valid rmse 0.187972 


fold 0, train rmse 0 0 
0 0 

fold 2, train rmse 0.163778, valid rmse 0.168125 
0 0 
O 


.167723, valid rmse 0.154744 
fold 4, train rmse 0.162573, valid rmse 0.182765 
5-fold validation: avg train rmse 0.165172, avg valid rmse 0.170123 


有 时 候 你 会 发 现 一 组 参数 的 训练 误差 可 以 达到 很 低 ， 但 是 在 大 折 交叉 验证 上 的 误差 可 能 反 
而 较 高 。 这 种 现象 很 可 能 是 由 过 拟 合 造成 的 。 因 此 ， 当 训练 误差 降低 时 ， 我 们 要 观察 大 折 区 又 
验证 上 的 误差 是 否 也 相应 降低 。 


fold 3, train rmse 


3.16.7 ”预测 并 在 Kaggle 提 交 结 果 


下 面 定 义 预 测 函 数 。 在 预测 之 前 ， 我 们 会 使 用 完整 的 训练 数据 集 来 重新 训练 模型 ， 并 将 预 
测 结果 存 成 提交 所 需要 的 格式 。 


In [16]: def train_and_pred(train_features, test_features, train_labels, test_data, 
num_epochs, lr, weight_decay, batch_size): 
net = get_net() 
train_ls, _ = train(net, train_features, train_labels, None, None, 
num_epochs, lr, weight_decay, batch_size) 

d21.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'rmse') 
print('train rmse %f' % train_lLs[-1]) 
preds = net(test_features) .asnumpy () 
test_data['SalePrice'] = pd.Series(preds.reshape(1, -1)[0]) 
submission = pd.concat([test_data['Id'], test_data['SalePrice']], axis=1) 
submission.to_csv('submission.csv', index=False) 


设计 好 模型 并 调 好 超 参 数 之 后 ， 下 一 步 就 是 对 测试 数据 集 上 的 房屋 样本 做 价格 预测 。 如 果 


我 们 得 到 与 交叉 验证 时 差不多 的 训练 误差 ， 那 么 这 个 结果 很 可 能 是 理想 的 ， 可 以 在 Kaggle 上 
提交 结果 。 


In [17]: train_and_pred(train_features, test_features, train_labels, test_data, 
num_epochs, lr, weight_decay, batch_size) 
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epochs 


train rmse 0.162369 


上 述 代 码 执行 完 之 后 会 生成 一 个 submission.csv 文件 。 这 个 文件 是 符合 Kaggle 比赛 要 求 的 
提交 格式 的 。 这 时 ， 我 们 可 以 在 Kaggle 上 提交 我 们 预测 得 出 的 结果 ， 并 且 查 看 与 测试 数据 集 
上 真实 房价 (标签 ) 的 误差 。 有 具体 来 说 有 以 下 几 个 步骤 : 登录 Kaggle 网 站 ， 访 问 房价 预测 比 
赛 网 页 ， 并 点 击 右 侧 “Submit Predictions” 或 “Late Submission” 按 钮 ; 然后， 点 击 页 面 下 方 
“Upload Submission File” 图 标 所 在 的 虚线 框 选择 需要 提交 的 预测 结果 文件 ， 最 后 ， 点 击 页 面 
最 下 方 的 “Make Submission ”按钮 就 可 以 查看 结果 了 ， 如 图 3-9 所 示 。 


Step 1 


Upload submission file 


t 


Upload Submission File 


File Format Number of Predictions 

Your submission should be in CSV format. We expect the solution file to have 1459 prediction rows. This file 
You can upload this in a zip/gz/rar/7z should have a header row. Please see sample submission file on 
archive, if you preter. the data page. 


Step 2 *6¢*°?G@ | EEH 


Describe submission 





Z| 3-9 Kaggle 预测 房价 比赛 的 预测 结果 提交 页 面 


小 结 
。 通常 需要 对 真实 数据 做 预 处 理 。 
。 可 以 使 用 上 折 交 叉 验证 来 选择 模型 并 调节 超 参 数 。 


练习 


(1) 在 Kaggle 提交 本 节 的 预测 结果 。 观 察 一 下 ， 这 个 结果 在 Kaggle 上 能 拿 到 什么 样 的 分 数 ? 
(2) 对 照 无 折 交 叉 验 证 结果 ， 不 断 修改 模型 〈 例 如 添加 隐藏 层 ) 和 调 参 ， 能 提高 Kaggle 上 的 分 


(3) 如 果 不 使 用 本 节 中 对 连续 数值 特征 的 标准 化 处 理 ， 结 果 会 有 什么 变化 ? 
(4) 扫 码 直达 讨论 区 ， 在 社区 交流 方法 和 结果 。 你 能 发 握 出 其 他 更 好 的 技巧 吗 ? 








第 3 章 介绍 了 包括 多 层 感知 机 在 内 的 简单 深度 学 习 模 型 的 原理 和 实现 。 本 章 我 们 将 简要 概 
括 深度 学 习 计算 的 各 个 重要 组 成 部 分 ， 如 模型 构造 、 参 数 的 访问 和 初始 化 等 ， 目 定义 层 ， 读 
取 、 存 储 和 使 用 GPU。 通 过 本 章 的 学 习 ， 我 们 将 能 够 深入 了 解 模 型 实现 和 计算 的 各 个 细节 ， 
并 为 在 之 后 章节 实现 更 复杂 模型 打下 坚实 的 基础 。 


4.1 模型 构造 扫 码 直达 讨论 区 


们 首先 构造 Sequential 实例 ， 然 后 依次 添加 两 个 全 连接 层 : 其 中 第 一 层 
的 输出 大 小 为 2356， 即 隐藏 层 单元 个 数 是 256; 第 二 层 的 输出 大 小 为 10， 
即 输出 层 单 元 个 数 是 10。 我 们 在 第 3 章 的 其 他 节 中 也 使 用 了 Sequential 
类 构造 模型 。 这 里 我 们 介绍 另外 一 种 基于 Block 类 的 模型 构造 方法 : 它 让 模型 构造 更 加 灵活 。 





4.1.1 继承 Block 类 来 构造 模型 


Block 类 是 nn 模块 里 提供 的 一 个 模型 构造 类 ， 我 们 可 以 继承 它 来 定义 想 要 的 模型 。 下 面 继 
承 Block 类 构造 本 节 开 头 提 到 的 多 层 感 知 机 。 这 里 定义 的 MLP 类 重 载 了 Block 类 的 __init__ 
函数 和 forward 函数 。 它 们 分 别 用 于 创建 模型 参数 和 定义 前 癌 计 算 。 前 癌 计 算 也 即 正 同 传播 。 


In [1]: from mxnet import nd 
from mxnet.gluon import nn 


class MLP(nn.Block): 

# 声明 带 有 模型 参数 的 层 ， 这 里 声明 了 两 个 全 连接 层 

def __init__(self, sere nc 
# 调用 MLP 父 类 BLock 的 构造 函数 来 进行 必要 的 初 
# 参数 ， 如 4. ep yt Roar ans 
super (MLP, self).__init__(**kwargs) 
self.hidden = nn.Dense(256, activation='relu') # 隐藏 层 
self.output = nn.Dense(10) #4 输出 层 





人 化。 这样 在 构造 实例 时 还 可 以 指定 其 他 函数 
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# 定义 模型 的 前 向 计算 ， 即 如 何 根据 输入 x 计算 返回 所 需要 的 模型 输出 
def forward(self, x): 
return self.output(self.hidden(x) ) 


以 上 的 MLP 类 中 无 须 定 义 反 问 传 播 函数 。 系 统 将 通过 自动 求 梯度 而 自动 生成 反 同 传播 所 需 
的 backward AIX. 


我 们 可 以 实例 化 MLP 类 得 到 模型 变量 net。 下 面 的 代码 初始 化 net 并 传 入 输入 数据 X 做 
一 次 前 向 计算 。 其 中 ，net(X) 会 调用 MLP 继承 自 Block 类 的 __call__ 函数 ， 这 个 函数 将 调 
用 MLP 类 定义 的 forward 函数 来 完成 前 癌 计 算 。 
In [2]: X = nd.random.uniform(shape=(2, 20)) 
net = MLP() 


net. initialize() 
net (X) 


Out[2]: 
[[ 0.09543004 0.04614332 -0.00286654 -0.07790349 -0.05130243 0.02942037 
©.08696642 -0.0190793 -0.04122177 0.05088576] 
[ 0©.0769287 ©.03099705 0.00856576 -0.04467199 -0.06926839 0.09132434 
©.06786595 -0.06187842 -0.03436673 0.04234694] ] 
<NDArray 2x10 @cpu(0)> 


注意 ， 这 里 并 没有 将 Block 类 命名 为 Layer (E) 或 者 Model (模型 ) 之 类 的 名 字 ， 这 是 
因为 该 类 是 一 个 可 供 自由 组 建 的 部 件 。 它 的 子 类 既 可 以 是 一 个 层 (如 Gluon 提供 的 Dense XÑ), 


又 可 以 是 一 个 模型 (如 这 里 定义 的 MLP 类 )， 或 者 是 模型 的 一 个 部 分 。 下 面 我 们 通过 两 个 例子 
来 展示 它 的 灵活 性 。 


4.1.2 ”Sequential 类 继承 自 Block 类 


我 们 刚刚 提 到 ，BLock 类 是 一 个 通用 的 部 件 。 事 实 上 ，Sequential 类 继承 自 Block 类 。 
当 模 型 的 前 向 计算 为 简单 串联 各 个 层 的 计算 时 ， 可 以 通过 更 加 简单 的 方式 定义 模型 。 这 正 是 
Sequential 类 的 目的 : 它 提 供 add 函数 来 逐一 添加 串联 的 Block 子 类 实例 ， 而 模型 的 前 向 计 
算 就 是 将 这 些 实例 按 添加 的 顺序 逐一 计算 。 


下 面 我 们 实现 一 个 与 Sequential 类 有 相同 功能 的 MySequential 类 。 这 或 许可 以 帮助 读 
者 更 加 清晰 地 理解 Sequential 类 的 工作 机 制 |。 


In [3]: class MySequential(nn.Block): 
def _ init__(self, **kwargs): 
super (MySequential, self).__init__(**kwargs) 


def add(self, block): 
# btLock 是 一 个 BLock 子 类 实例 ， 假 设 它 有 一 个 独一无二 的 名 字 。 我 们 将 它 保存 在 BLock 类 的 
# 成 员 变 量 _children 里 ， 其 类 型 是 0rderedDict。 当 MySequential 实 例 调用 
# initialize 水 数 时 ， 系 统 会 自动 对 _children 里 所 有 成 员 初 始 化 
self._children[block.name] = block 
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def forward(self, x): 
# OrderedDict 保 证 会 按照 成 员 添 加 时 的 顺序 遍历 成 员 
for block in self._children.values(): 
x = block(x) 
return x 


我 们 用 MySequential 类 来 实现 前 面 描 述 的 MLP 类 ， 并 使 用 随机 初始 化 的 模型 做 一 次 前 向 
计算 。 


In [4]: net = MySequential() 
net.add(nn.Dense(256, activation='relu') ) 
net.add(nn.Dense(10) ) 
net. initialize() 
net (X) 


Out[4]: 
[[ 0.00362228 0.00633332 0.03201144 -0.01369375 0.10336449 -0.03508018 
-0.00032164 -0.01676023 0.06978628 0.01303309] 
[ 0.03871715 0.02608213 0.03544959 -0.02521311 0.11005433 -0.0143066 
-@.03052466 -0.03852827 0.06321152 0.0038594 ]] 
<NDArray 2x10 @cpu(0)> 


可 以 观察 到 这 里 MySequential 类 的 使 用 跟 3.10 节 中 Sequential 类 的 使 用 没什么 区 别 。 


4.1.3 构造 复杂 的 模型 


虽然 Sequential 类 可 以 使 模型 构造 更 加 简单 ， 且 不 需要 定义 forward 图 数 ， 但 直接 继 
承 Block 类 可 以 极 大 地 拓展 模型 构造 的 灵活 性 。 下 面 我 们 构造 一 个 稍微 复杂 点 的 网 络 FancyMLP。 
在 这 个 网 络 中 ， 我 们 通过 get_constant 函数 创建 训练 中 不 被 迭代 的 参数 ， 即 常数 参数 。 在 前 向 
计算 中 ， 除 了 使 用 创建 的 常数 参数 外 ， 我 们 还 使 用 NDArray 的 函数 和 Python 的 控制 流 ， 并 多 次 
调用 相同 的 层 。 


In [5]: class FancyMLP(nn.Block): 
def __init__(self, **kwargs): 
super(FancyMLP, self).__init__(**kwargs) 
# 使 用 get_constant 创 建 的 随机 权重 参数 不 会 在 训练 中 被 迭代 〈 即 常数 参数 ) 
self.rand_weight = self.params.get_constant( 
'rand_weight', nd.random.uniform(shape=(20, 20))) 
self.dense = nn.Dense(20, activation='relu') 


def forward(self, x): 
x = self.dense(x) 
# 使 用 创建 的 常数 参数 ， 以 及 NDArray 的 relu 函 数 和 dot 函 数 
x = nd.relu(nd.dot(x, self.rand weight.data()) + 1) 
# 复 用 全 连接 层 。 等 价 于 两 个 全 连接 层 共 享 参数 
x = self.dense(x) 
# 控制 流 ， 这 里 我 们 需要 调用 asscalar 函 数 来 返回 标量 进行 比较 


while x.norm().asscalar() > 1: 
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x /= 2 

if x.norm().asscalar() < 0.8: 
x *= 10 

return x.sum() 


在 这 个 FancyMLP 模型 中 ， 我 们 使 用 了 第 数 权重 rand_weight《〈 注 意 它 不 是 模型 参数 )、 
做 了 矩阵 乘法 操作 (nd.dot)〉 并 重复 使 用 了 相同 的 Dense 层 。 下 面 我 们 来 测试 该 模型 的 随机 
初始 化 和 前 问 计 算 。 


In [6]: net = FancyMLP() 
net.initialize() 
net (X) 


Out [6]: 
[18.571953] 
<NDArray 1 @cpu(Q)> 


因为 FancyMLP 和 Sequential 类 都 是 Block BA FAK, PART VRE ET. 


In [7]: class NestMLP(nn.Block): 
def __init__(self, **kwargs): 
super(NestMLP, self).__init__(**kwargs) 
self.net = nn.Sequential() 
self.net.add(nn.Dense(64, activation='relu'), 
nn.Dense(32, activation='relu') ) 
self.dense = nn.Dense(16, activation='relu') 


def forward(self, x): 
return self.dense(self.net(x) ) 


net = nn.Sequential() 
net.add(NestMLP(), nn.Dense(20), FancyMLP()) 


net. initialize() 
net (X) 


Out[7]: 
[24.86621] 
<NDArray 1 @cpu(0)> 


可 以 通过 继承 Block 类 来 构造 模型 。 
Sequential 类 继承 自 Block 类 。 


虽然 Sequential 类 可 以 使 模型 构造 更 加 简单 ， 但 直接 继承 Block 类 可 以 极 大 地 拓展 模型 
构造 的 灵活 性 。 
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练习 
(1) 如 果 不 在 MLP 类 的 __init__ 函数 里 调用 父 类 的 __init_ 函数 ， 会 出 现 什么 样 的 错误 
信息 ? 


(2) 如 果 去 掉 FancyMLP 类 里 面 的 asscalar 函数 ， 会 有 什么 问题 ? 
(3) 如 果 将 NestMLP 类 中 通过 Sequential 实例 定义 的 self.net HA self.net = [nn. 


Dense(64，activation='reLu')，nn.Dense(32，activation='reLu')]， 会 有 什么 问题 ? 





4.2 ”模型 参数 的 访问 、 初 始 化 和 共享 
[m] 





在 3.3 节 中 ， 我 们 通过 init 模块 来 初始 化 模型 的 全 部 参数 。 我 们 也 介 OFF. 
绍 了 访问 模型 参数 的 简单 方法 。 本 节 将 深入 讲解 如 何 访问 和 初始 化 模型 参 。 el 
数 ， 以 及 如 何在 多 个 层 之 间 共 享 同一 份 模型 参数 。 


我 们 先 定 义 一 个 与 4.1 节 中 相同 的 含 单 隐藏 层 的 多 层 感知 机 。 我 们 [m] 
依然 使 用 默认 方式 初始 化 它 的 参数 ， 并 做 一 次 前 癌 计 算 。 与 之 前 不 同 的 是 ， 在 这 里 我 们 从 
MXNet 中 导入 了 init 模块 ， 它 包含 了 多 种 模型 初始 化 方法 。 


In [1]: from mxnet import init, nd 






from mxnet.gluon import nn 


net = nn.Sequential() 
net.add(nn.Dense(256, activation='relu')) 
net.add(nn.Dense(10) ) 

net.initialize() # 使 用 默认 初始 化 方式 


X = nd.random.uniform(shape=(2, 20)) 
Y = net(X) # 前 向 计算 


4.2.1 访问 模型 参数 


对 于 使 用 Sequential 类 构造 的 神经 网 络 ， 我 们 可 以 通过 方 括号 [] 来 访问 网 络 的 任 一 
层 。 回 忆 一 下 4.1 节 中 提 到 的 Sequential 类 与 Block 类 的 继承 关系 。 对 于 Sequential 实 
例 中 含 模型 参数 的 层 ， 我 们 可 以 通过 Block 类 的 params 属性 来 访问 该 层 包含 的 所 有 参数 。 
下 面 ， 访 问 多 层 感知 机 net 中 隐藏 层 的 所 有 参数 。 索 引 0 RREA Sequential 实例 最 
先 添加 的 层 。 


In [2]: net[0].params, type(net[0].params) 


Out[2]: (denseO_ ( 
Parameter denseO_weight (shape=(256, 20), dtype=float32) 
Parameter denseO_bias (shape=(256,), dtype=float32) 
), mxnet.gluon.parameter.ParameterDict) 
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可 以 看 到 ， 我 们 得 到 了 一 个 由 参数 名 称 映射 到 参数 实例 的 字典 〈 类 型 为 ParameterDict 
类 )。 其 中 权重 参数 的 名 称 为 dense0_weight， 它 由 net[9] 的 名 称 (denseo_) 和 自己 的 变 
量 名 (weight) 组 成 。 而 且 可 以 看 到 ， 该 参数 的 形状 为 (256, 20)， 且 数据 类 型 为 32 位 浮 点 数 
(float32)。 为 了 访问 特定 参数 ， 我 们 既 可 以 通过 名 字 来 访问 字典 里 的 元 素 ， 也 可 以 直接 使 用 
它 的 变量 名 。 下 面 两 种 方法 是 等 价 的 ， 但 通常 后 者 的 代码 可 读 性 更 好 。 


In [3]: net[0].params['denseO_weight'], net[0].weight 


Out[3]: (Parameter denseO_weight (shape=(256, 20), dtype=float32) ， 
Parameter denseO_weight (shape=(256, 20), dtype=float32) ) 


Gluon 里 参数 类 型 为 Parameter 类 ， 它 包含 参数 和 梯度 的 数值 ， 可 以 分 别 通 过 data 函数 
和 grad 函数 来 访问 。 因 为 我 们 随机 初始 化 了 权重 ， 所 以 权重 参数 是 一 个 由 随机 数组 成 的 形状 
为 (256, 20) 的 NDArray. 


In [4]: net[0].weight.data() 


Out[4]: 
[[ 0.06700657 -0.00369488 0.0418822 ... -0.05517294 -0.01194733 
-0 . 00369594] 
[-0.03296221 -0.04391347 :0.03839272 ... 0.05636378 0.02545484 
-0.007007 |] 
[-©.0196689 @.01582889 -0.00881553 ... 0.01509629 -0.01908049 


-0.02449339] 


[ 0.00010955 0.0439323 -0.04911506 ... 0.06975312 0 . 0449558 


-0 . 03283203] 

[ 0.04106557 0.05671307 -0.00066976 ... 0.06387014 -0.01292654 
0.00974177] 

[ 0.00297424 -0.0281784 -0.06881659 ... -0.04047417 0.00457048 


©.05696651] ] 
<NDArray 256x20 @cpu(0)> 


权重 梯度 的 形状 和 权重 的 形状 一 样 。 因 为 我 们 还 没有 进行 反 向 传播 计算 ， 所 以 梯度 的 值 全 
为 0。 


In [5]: net[0] .weight.grad() 


Out[5]: 

Lie. Gs Os csv Oe Oe Wed 
io. Gee cas Oo Oe esl 
fe. Os Wa eas Os Be Bs} 
ips: Os Dioras OB. Ur Ga] 
Pe 
[0. Ox 0; ©. 0.-0.]] 


<NDArray 256x20 @cpu(0)> 


类 似 地 ， 我 们 可 以 访问 其 他 层 的 参数 ， 如 输出 层 的 偏差 值 。 
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In [6]: net[{1].bias.data() 


Out[6]: 
[O. 0. 0. 0. 0. 0. 0. 0. 0. 0.) 
<NDArray 10 @cpu(Q)> 


最 后 ， 我 们 可 以 使 用 collect_params BARRA net 变量 所 有 髓 套 〈( 例 如 通过 add K 
Hike) 的 层 所 包含 的 所 有 参数 。 它 返回 的 同样 是 一 个 由 参数 名 称 到 参数 实例 的 字典 。 


In [7]: net.collect_params() 


Out[7]: sequentialO_ ( 
Parameter denseO_weight (shape=(256, 20), dtype=float32) 
Parameter denseO_bias (shape=(256,), dtype=float32) 
Parameter densel_weight (shape=(10, 256), dtype=float32) 
Parameter densel_bias (shape=(10,), dtype=float32) 
) 


这 个 函数 可 以 通过 正则 表达 式 来 匹配 参数 名 ， 从 而 筛选 需要 的 参数 。 


In [8]: net.collect_params('.*weight' ) 


Out[8]: sequentialO_ ( 
Parameter denseO_weight (shape=(256, 20), dtype=float32) 
Parameter densel_weight (shape=(10, 256), dtype=float32) 
) 


4.2.2 初始 化 模型 参数 


我 们 在 3.15 节 中 描述 了 模型 的 默认 初始 化 方法 ， 权 重 参数 元 素 为 -0.07. 0.07] 之 间 均 匀 
分 布 的 随机 数 ， 偏 差 参数 则 全 为 0。 但 我 们 经 常 需要 使 用 其 他 方法 来 初始 化 权重 。MXNet 的 
init 模块 里 提供 了 多 种 预 设 的 初始 化 方法 。 在 下 面 的 例子 中 ， 我 们 将 权重 参数 初始 化 成 均值 
为 0、 标 准 差 为 0.01 的 正 态 分 布 随机 数 ， 并 依然 将 偏差 参数 清 零 。 

In [9]: # 非 首次 对 模型 初始 化 需要 指定 force_reinit 为 真 


net.initialize(init=init.Normal(sigma=0.01), force_reinit=True) 
net[0].weight.data() [0] 


Out[9]: 
[ 0.01074176 0.00066428 0.00848699 -0.0080038 -0.00168822 0.00936328 
©0.00357444 0.00779328 -0.01010307 -0.00391573 0.01316619 -0.00432926 
0.0071536 0.00925416 -0.00904951 -0.00074684 0.0082254 -0.01878511 
0.00885884 0©.01911872] 
<NDArray 20 @cpu(0)> 


下 面 使 用 第 数 来 初始 化 权重 参数 。 


In [10]: net.initialize(init=init.Constant(1), force_reinit=True) 
net[0].weight.data() [0] 


Out[10]: 
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RE 
<NDArray 20 @cpu(0)> 


如 果 只 想 对 某 个 特定 参数 进行 初始 化 ， 我 们 可 以 调用 Parameter 类 的 initialize MAW, E 
与 Block 类 提供 的 initialize 函数 的 使 用 方法 一 致 。 下 例 中 我 们 对 隐藏 层 的 权重 使 用 Xavier 随 
机 初始 化 方法 。 


In [11]: net[0].weight.initialize(init=init.Xavier(), force_reinit=True) 
net[0].weight.data() [0] 


Out[11]: 
[ 0.00512482 -0.06579044 -0.10849719 -0.09586414 0.06394844 0.06029618 
-@.03065033 -0.01086642 0.01929168 0.1003869 -0.09339568 -0.08703034 
-0.10472868 -0.09879824 -0.00352201 -0.11063069 -0.04257748 0.06548801 
©.12987629 -0.13846186] 
<NDArray 20 @cpu(0)> 


4.2.3 目 定 义 初 始 化 方法 


有 时 候 我 们 需要 的 初始 化 方法 并 没有 在 init 模块 中 提供 。 这 时 ， 可 以 实现 一 个 Initializer 
类 的 子 类 ， 从 而 能 够 像 使 用 其 他 初始 化 方法 那样 使 用 它 。 通 常 ， 我 们 只 需要 实现 _init_weight 
这 个 函数 ， 并 将 其 传 入 的 NDArray 修改 成 初始 化 的 结果 。 在 下 面 的 例子 里 ， 我 们 令 权 重 有 一 
半 概 率 初 始 化 为 0， 有 另 一 半 概 率 初始 化 为 [-10, -5] 和 [5, 10] 两 个 区 间 里 均匀 分 布 的 随机 数 。 
In [12]: class MyInit(init.Initializer): 
def _init_weight(self, name, data): 
print('Init', name, data.shape) 


data[:] = nd.random.uniform(low=-10, high=10, shape=data.shape) 
data *= data.abs() >= 5 


net. initialize(MyInit(), force_reinit=True) 
net[0].weight.data() [0] 


Init denseO_weight (256, 20) 
Init densel_weight (10, 256) 


Out[12]: 
[-5.3659673 7.5773945 8.986376 -@. 8.827555 0. 
5.9840508 -0. 0. 9. 7T.4857597 一 全 
“9 6.8910007 6.9788704 -6.1131554 0. 5.4665203 


-9 . 735263 9.485172 ] 
<NDArray 20 @cpu(0)> 


此 外 ， 我 们 还 可 以 通过 Parameter 类 的 set_data 函数 来 直接 改写 模型 参数 。 例 如 ， 在 
下 例 中 我 们 将 隐藏 层 参数 在 现 有 的 基础 上 加 1。 


In [13]: net[0].weight.set_data(net[0].weight.data() + 1) 
net[0] .weight.data() [0] 


Out[13]: 
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[-4.3659673 8.5773945 9.986376 i. 9.827555 1. 
6.9840508 1. 1. I. 8.48576 1. 
i. 7 .8910007 7.9788704 -5.1131554 1. 6.4665203 


-8.735263 10.485172 | 
<NDArray 20 @cpu(0)> 
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在 有 些 情况 下 ， 我 们 希望 在 多 个 层 之 间 共 享 模型 参数 。4.1 节 介 绍 了 如 何在 Block 类 的 
forward 函数 里 多 次 调用 同一 个 层 来 计算 。 这 里 再 介绍 另外 一 种 方法 ， 它 在 构造 层 的 时 候 指 定 
使 用 特定 的 参数 。 如 果 不 同 层 使 用 同一 份 参数 ， 那 么 它们 在 前 向 计算 和 反 疝 传播 时 都 会 共享 相 
同 的 参数 。 在 下 面 的 例子 里 ， 我 们 让 模型 的 第 二 隐藏 层 (shared 变量 ) 和 第 三 隐藏 层 共 享 模 
型 参数 。 

In [14]: net = nn.Sequential() 

shared = nn.Dense(8, activation='relu') 
net.add(nn.Dense(8, activation='relu'), 
shared, 
nn.Dense(8, activation='relu', params=shared.params) , 


nn.Dense(10) ) 
net. initialize() 


X = nd.random.uniform(shape=(2, 20)) 
net (X) 


net[1].weight.data()[0] == net[2].weight.data() [0] 


Out[14]: 
FOSS ee FS eee Se PTE Orr ae 
<NDArray 8 @cpu(0)> 
在 构造 第 三 隐藏 层 时 ， 我 们 通过 params 来 指定 它 使 用 第 二 隐藏 层 的 参数 。 因 为 模型 参数 里 
包含 了 梯度 ， 所 以 在 反问 传播 计算 时 ， 第 二 隐藏 层 和 第 三 隐藏 层 的 梯度 都 会 被 累加 在 shared. 
params.grad() 里 。 


小 结 
© 有 多 种 方法 来 访问 、 初 始 化 和 共享 模型 参数 。 
© 可 以 自 定义 初始 化 方法 。 


练习 

(1) 查阅 有 关 init 模块 的 MXNet 文档 ， 了 解 不 同 的 参数 初始 化 方法 。 

(2) 尝试 在 net.initialize() 后 、net(X) 前 访问 模型 参数 ， 观 察 模 型 参数 的 形状 。 

(3) 构造 一 个 含 共享 参数 层 的 多 层 感知 机 并 训练 。 在 训练 过 程 中 ， 观 察 每 一 层 的 模型 参数 和 
梯度 。 
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4.3， 模 型 参数 的 延 后 初始 化 


如 果 做 了 4.2 节 练 习 ， 你 会 发 现 模 型 net 在 调用 初始 化 函数 initialize [m]; F. 
Zii Eai net(X) 之 前 时 ， 权 重 参数 的 形状 中 出 现 了 0. BRA 
WE initialize 完成 了 所 有 参数 初始 化 过 程 ， 然 而 这 在 Gluon 中 却 是 不 
一 定 的 。 我 们 在 本 节 中 详细 讨论 这 个 话题 。 





4.3.1 延 后 初始 化 


也 许 读者 早 就 注意 到 了 ， 在 之 前 使 用 Gluon 创建 的 全 连接 层 都 没有 指定 输入 个 数 。 例 如 ， 
在 4.2 节 使 用 的 多 层 感 知 机 net 里 ， 我 们 创建 的 隐藏 层 仅 仅 指 定 了 输出 大 小 为 256。 当 调用 
initialize 函数 时 ， 由 于 隐藏 层 输 入 个 数 依 然 未 知 ， 系 统 也 无 法 得 知 该 层 权 重 参数 的 形状 。 
只 有 在 当 我 们 将 形状 是 (2, 20) 的 输入 X 传 进 网 络 做 前 向 计算 net(X) 时 ， 系 统 才 推 断 出 该 层 的 
权重 参数 形状 为 (256, 20)。 因 此 ， 这 时 候 我 们 才能 真正 开始 初始 化 参数 。 


让 我 们 使 用 4.2 节 中 定义 的 MyInit 类 来 演示 这 一 过 程 。 我 们 创建 多 层 感知 机 ， 并 使 用 
MyInit 实例 来 初始 化 模型 参数 。 


In [1]: from mxnet import init，nd 
from mxnet.gluon import nn 


class MyInit(init.Initializer): 
def _init_weight(self, name, data): 
print('Init', name, data.shape) 


# 实际 的 初始 化 逻辑 在 此 省 略 了 


net = nn.Sequential() 
net.add(nn.Dense(256, activation='relu'), 
nn.Dense(10) ) 


net. initialize(init=MyInit()) 


注意 ， 虽 然 MyInit 被 调用 时 会 打印 模型 参数 的 相关 信息 ， 但 上 面 的 initialize 函数 执 
行 完 并 未 打印 任何 信息 。 由 此 可 见 ， 调 用 initialize 函数 时 并 没有 真正 初始 化 参数 。 下 面 我 
们 定义 输入 并 执行 一 次 前 向 计算 。 


In [2]: X = nd.random.uniform(shape=(2, 20)) 
Y = net(X) 


Init denseO_weight (256, 20) 

Init densel_weight (10, 256) 

这 时 候 ， 有 关 模 型 参数 的 信息 被 打印 出 来 。 在 根据 输入 X 做 前 向 计算 时 ， 系 统 能 够 根据 输 
入 的 形状 自动 推断 出 所 有 层 的 权重 参数 的 形状 。 系 统 在 创建 这 些 参数 之 后 ， 调 用 MyInit 实例 
对 它们 进行 初始 化 ， 然 后 才 进 行 前 网 计算 。 
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当然 ， 这 个 初始 化 只 会 在 第 一 次 前 癌 计 算 时 被 调用 。 之 后 我 们 再 运行 前 同 计 算 net(X) 时 
则 不 会 重新 初始 化 ， 因 此 不 会 再 次 产生 MyInit 实例 的 输出 。 


In [3]: Y = net(X) 


系统 将 真正 的 参数 初始 化 延 后 到 获得 足够 信息 时 才 执 行 的 行为 叫 作 延 后 初始 化 〈deferred 
initialization)。 它 可 以 让 模型 的 创建 更 加 简单 : 只 需要 定义 每 个 层 的 输出 大 小 ， 而 不 用 人 工 推 
测 它们 的 输入 个 数 。 这 对 于 之 后 将 介绍 的 定义 多 达 数 十 甚至 数 百 层 的 网 络 来 说 尤其 方便 。 

然而 ， 任 何事 物 都 有 两 面 性 。 正 如 本 节 开 头 提 到 的 那样 ， 延 后 初始 化 也 可 能 会 带 来 一 定 的 
困惑 。 在 第 一 次 前 问 计 算 之 前 ， 我 们 无 法 直接 操作 模型 参数 ， 例 如 无 法 使 用 data 函数 和 set_ 
data 图 数 来 获取 和 修改 参数 。 因 此 ， 我 们 经 常会 额外 做 一 次 前 向 计算 来 迫使 参数 被 真正 地 初 
始 化 。 


4.3.2 ”避免 延 后 初始 化 


如 果 系 统 在 调用 initialize 函数 时 能 够 知道 所 有 参数 的 形状 ， 那 么 延 后 初始 化 就 不 会 发 
生 。 我 们 在 这 里 分 别 介 绍 两 种 这 样 的 情况 。 


第 一 种 情况 是 我 们 要 对 已 初始 化 的 模型 重新 初始 化 。 因 为 参数 形状 不 会 发 生变 化 ， 所 以 系 
统 能 够 立即 进行 重新 初始 化 。 


In [4]: net.initialize(init=MyInit(), force_reinit=True) 


Init denseO_weight (256, 20) 
Init densel_weight (10, 256) 


第 二 种 情况 是 我 们 在 创建 层 的 时 候 指 定 了 它 的 输入 个 数 ， 使 系统 不 需要 额外 的 信息 来 推 
测 参 数 形状 。 下 例 中 我 们 通过 in_units 来 指定 每 个 全 连接 层 的 输入 个 数 ， 使 初始 化 能 够 在 
initialize 函数 被 调用 时 立即 发 生 。 

In [5]: net = nn.Sequential() 


net.add(nn.Dense(256, in_units=20, activation='relu')) 
net.add(nn.Dense(10, in_units=256) ) 


net. initialize(init=MyInit() ) 


Init dense2_weight (256, 20) 
Init dense3_weight (10, 256) 


系统 将 真正 的 参数 初始 化 延 后 到 获得 足够 信息 时 才 执 行 的 行为 叫 作 延 后 初始 化 。 
延 后 初始 化 的 主要 好 处 是 让 模型 构造 更 加 简单 。 人 例如， 我们 无 须 人 工 推测 每 个 层 的 输入 


个 数 。 
也 可 以 避免 延 后 初始 化 。 
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练习 


如 果 在 下 一 次 前 向 计算 net(X) 前 改变 输入 X 的 形状 ， 包 括 批量 大 小 和 输入 个 数 ， 会 发 生 什 么 ? 





44 BEE 


深度 学 习 的 魅力 之 一 在 于 神经 网 络 中 各 式 各 样 的 层 ， 例 如 全 连接 层 和 
第 5 章 和 第 6 章 中 将 要 介绍 的 卷 积 层 、 池 化 层 与 循环 层 。 虽 然 Gluon 提供 
了 了 大量 常用 的 层 ， 但 有 时 候 我 们 依然 希望 目 定 义 层 。 本 节 将 介绍 如 何 使 用 
NDArray 来 自 定 义 一 个 Gluon 的 层 ， 从 而 可 以 被 重复 调用 。 





44.1 不 合 模 型 参数 的 目 定 义 层 


我 们 先 介绍 如 何 定义 一 个 不 含 模型 参数 的 自 定 义 层 。 事 实 上 ， 这 和 4.1 节 中 介绍 的 使 用 
Block 类 构造 模型 类 似 。 下 面 的 CenteredLayer 类 通过 继承 Block 类 自 定 义 了 一 个 将 输入 减 
掉 均值 后 输出 的 层 ， 并 将 层 的 计算 定义 在 了 forward 函数 里 。 这 个 层 里 不 含 模型 参数 。 


In [1]: from mxnet import gluon, nd 
from mxnet.gluon import nn 


class CenteredLayer (nn.Block): 
def __init__(self, **xkwargs): 
super (CenteredLayer, self).__init__(**kwargs) 


def forward(self, x): 
return x - x.mean() 


我 们 可 以 实例 化 这 个 层 ， 然 后 做 前 问 计 算 。 
In [2]: layer = CenteredLayer() 


layer (nd.array([1, 2, 3, 4, 5])) 


Out[2]: 
me obio@., thas | 
<NDArray 5 @cpu(0)> 


我 们 也 可 以 用 它 来 构造 更 复杂 的 模型 。 


In [3]: net = nn.Sequential() 
net.add(nn.Dense(128) , 
CenteredLayer () ) 


下 面 打 印 目 定 义 层 各 个 输出 的 均值 。 因 为 均值 是 浮 点 数 ， 所 以 它 的 值 是 一 个 很 接近 0 的 数 。 
In [4]: net.initialize() 


y = net(nd.random.uniform(shape=(4, 8))) 
y.mean().asscaLlar() 


Out[4]: -7.212293e-10 
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44.2 ” 含 模 型 参数 的 目 定义 层 
我 们 还 可 以 自 定义 含 模型 参数 的 自 定义 层 。 其 中 的 模型 参数 可 以 通过 训练 学 习 到 。 


4.2 节 分 别 介 绍 了 Parameter 类 和 ParameterDict 类 。 在 自 定 义 含 模型 参数 的 层 时 ， 
我 们 可 以 利用 Block 类 自 带 的 ParameterDict 类 型 的 成 员 变量 params。 它 是 一 个 由 字符 
串 类 型 的 参数 名 字 映 射 到 Parameter 类 型 的 模型 参数 的 字典 。 我 们 可 以 通过 get 函数 从 
ParameterDict 创建 Parameter 实例 。 


In [5]: params = gluon.ParameterDict() 
params.get('param2', shape=(2, 3)) 
params 
Out[5]: ( 
Parameter param2 (shape=(2, 3), dtype=<class 'numpy.float32'>) 
) 


现在 我 们 尝试 实现 一 个 含 权 重 参 数 和 偏差 参数 的 全 连接 层 。 它 使 用 ReLU 函数 作为 激活 函 
数 ， 其 中 in_units 和 units 分 别 代 表 输 入 个 数 和 输出 个 数 。 


In [6]: class MyDense(nn.Block): 
# units 为 该 层 的 输出 个 数 ，in_units 为 该 层 的 输入 个 数 
def __init__(self, units, in_units, **xkwargs): 
super (MyDense, self).__init__(**kwargs) 
self.weight = self.params.get('weight', shape=(in_units, units) ) 
self.bias = self.params.get('bias', shape=(units,)) 


def forward(self, x): 
linear = nd.dot(x, self.weight.data()) + self.bias.data() 
return nd.relu(linear) 


下 面 ， 我 们 实例 化 MyDense 类 并 访问 它 的 模型 参数 。 


In [7]: dense = MyDense(units=3, in_units=5) 
dense.params 


Out[7]: mydenseO_ ( 
Parameter mydenseO_weight (shape=(5, 3), dtype=<class 'numpy.float32'>) 
Parameter mydenseO_bias (shape=(3,), dtype=<class 'numpy.float32'>) 
) 


我 们 可 以 直接 使 用 自 定 义 层 做 前 问 计 算 。 
In [8]: dense.initialize() 


dense(nd.random.uniform(shape=(2, 5))) 


Out[8]: 
[[0.06917784 0.01627153 0.01029644] 
[0.02602214 0.0453731 0. ]] 
<NDArray 2x3 @cpu(0)> 


我 们 也 可 以 使 用 自 定 义 层 构造 模型 。 它 和 Gluon 的 其 他 层 在 使 用 上 很 类 似 。 


4.5 读 取 和 存储 +99 


In [9]: net = nn.Sequential() 
net.add(MyDense(8, in_units=64), 
MyDense(1, in_units=8) ) 
net. initialize() 
net(nd.random.uniform(shape=(2, 64))) 


Out[9]: 
[[0.03820474] 
[0.04035058] | 
<NDArray 2x1 @cpu(0)> 


小 结 
e 可 以 通过 Block 类 自 定义 神经 网 络 中 的 层 ， 从 而 可 以 被 重复 调用 。 


练习 
自 定义 一 个 层 ， 使 用 它 做 一 次 前 向 计算 。 





4.5” 读 取 和 存储 | 
qo 
T 









到 目前 为 止 ， 我 们 介绍 了 如 何 处 理 数据 以 及 如 何 构建、 训练 和 测试 深 “ 国 ] 
度 学 习 模 型 。 然 而 在 实际 中 ， 我 们 有 时 需要 把 训练 好 的 模型 部 署 到 很 多 不 
同 的 设备 上 。 在 这 种 情况 下 ， 我 们 可 以 把 内 存 中 训练 好 的 模型 参数 存储 在 
硬盘 上 供 后 续 读 取 使 用 。 [m] 


4.5.1 读 写 NDArray 


我 们 可 以 直接 使 用 save 函数 和 load 函数 分 别 存储 和 读 取 NDArray。 下 面 的 例子 创建 了 
NDArray 变量 x， 并 将 其 存在 文件 名 同 为 x 的 文件 里 。 


In [1]: from mxnet import nd 
from mxnet.gluon import nn 


x = nd.ones(3) 
nd.save('x', x) 


然后 我 们 将 数据 从 存储 的 文件 读 回 内 存 。 


In [2]: x2 = nd.load('x') 
x2 


OUTE]: ft 
ia. Be Bat 
<NDArray 3 @cpu(Q)>] 
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我 们 还 可 以 存储 一 列 NDArray 并 读 回 内 存 。 


In [3]: 


Out[3]: 


y = nd.zeros(4) 
nd.save('xy', [x, y]) 
x2, y2 = nd.load('xy') 
(x2, y2) 


( 

EIR Bie. sc 

<NDArray 3 @cpu(0)>, 
LO 0. 0. 0.] 
<NDArray 4 @cpu(Q)>) 


我 们 甚至 可 以 存储 并 读 取 一 个 从 字符 串 映 射 到 NDArray 的 字典 。 


In [4]: 


Out[4]: 


mydtet = £% 2's x, 1y!+4--y} 
nd.save('mydict', mydict) 
mydict2 = nd.load('mydict') 
mydict2 


aa AN 

Be TERE. T 

<NDArray 3 @cpu(0)>, 'y': 
m: 0. 083 

<NDArray 4 @cpu(0)>} 


45.2 ” 读 写 Gluon 模 型 的 参数 


除 NDArray 以 外 ， 我 们 还 可 以 读 写 Gluon 模型 的 参数 。Gluon 的 Block 类 提供 了 save_ 
parameters 函数 和 load_parameters 函数 来 读 写 模型 参数 。 为 了 演示 方便 ， 我 们 先 创 建 一 
个 多 层 感 知 机 ， 并 将 其 初始 化 。 回 忆 4.3 节 ， 由 于 延 后 初始 化 ， 我 们 需要 先 运 行 一 次 前 向 计算 
才能 实际 初始 化 模型 参数 。 


in (Si: 


class MLP(nn.Block): 
def __init__(self, **xkwargs): 
super(MLP, self).__init__(**kwargs) 
self.hidden = nn.Dense(256, activation='relu') 
self.output = nn.Dense(10) 


def forward(self, x): 
return self.output(self.hidden(x) ) 


net = MLP() 

net. initialize() 

X = nd.random.uniform(shape=(2, 20)) 
Y = net(X) 


下 面 把 该 模型 的 参数 存 成 文件 ， 文 件 名 为 mlp.params。 


In [6]: 


filename = 'mlp.params' 
net.save_parameters (filename) 
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接 下 来 ， 我 们 再 实例 化 一 次 定义 好 的 多 层 感 知 机 。 与 随机 初始 化 模型 参数 不 同 ， 我 们 在 这 
里 直接 读 取 保存 在 文件 里 的 参数 。 


In [7]: net2 = MLP() 
net2.load_parameters (filename) 


因为 这 两 个 实例 都 有 同样 的 模型 参数 ， 那 么 对 同一 个 输入 X 的 计算 结果 将 会 是 一 样 的 。 我 
们 来 验证 一 下 。 


In [8]: Y2 = net2(X) 
Y2 == Y 


Out[8]: 
fide ay tke Be ages hp TL 
Pap TOE Pe Ee ee ee ee FO 
<NDArray 2x10 @cpu(Q)> 


小 结 
e 通过 save 函数 和 Load 函数 可 以 很 方便 地 读 写 NDArray。 
e 通过 Load_parameters 函数 和 save_parameters 函数 可 以 很 方便 地 读 写 Gluon 模型 的 
参数 。 


练习 
即使 无 须 把 训练 好 的 模型 部 署 到 不 同 的 设备 ， 存 储 模 型 参数 在 实际 中 还 有 哪些 好 处 ? 





4.6 GPU 计算 


到 目前 为 止 ， 我 们 一 直 在 使 用 CPU 计算 。 对 复杂 的 神经 网 络 和 大 规 
模 的 数据 来 说 ， 使 用 CPU 来 计算 可 能 不 够 高 效 。 在 本 节 中 ， 我 们 将 介绍 
如 何 使 用 单 块 NVIDIA GPU 来 计算 。 首 先 ， 需 要 确保 已 经 安装 好 了 至 少 一 
Hk NVIDIA GPU。 然后， 下载 CUDA 并 按照 提示 设置 好 相应 的 路 径 〈 可 参 
考 附 录 C)。 这 些 准 备 工 作 都 完成 后 ， 就 可 以 通过 nvidia-smi 命令 来 查 
看 显卡 信息 了 。 





In [1]: !nvidia-smi # 对 Linux/mac0OSs 用 户 有 效 
Mon Feb 25 20:19:43 2019 


| NVIDIA-SMI 384.111 Driver Version: 384.111 | 
| 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 7 
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 
| Fan Temp Perf Pwr :Usage/Cap | Memory-Usage | GPU-Util Compute M. | 
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00000000:00:1B.0 Off 
OMiB / 16152M7B 


| © Tesla V100-SXM2.. On 
| N/A 50C PO 39W / 300W 


o | 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| 1 Tesla V100-SXM2.. On 00000000:00:1C.0 Off 


+ 十 
| | 
| | 
+ + 
| | 
| N/A 43C PO 38W / 300W | OMiB / 16152MiB | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 四 
| | 
| | 
+ + 
| | 
| | 
+ + 


9 | 


| 2 Tesla V100-SXM2.. On 00000000:00:1D.0 Off 9 | 
| N/A 40C PO 39W / 300w OMiB / 16152MiB 
r EAEE ed eth itp i es ni LAAN a el ad a 
00000000:00:1E.0 Off 

OMiB / 16152M7iB 


| 3 Tesla V100-SXM2.. On 
| N/A 43C PO 42W / 300W 


9 | 


| Processes: GPU Memory | 
| GPU PID Type Process name Usage | 


接 下 来 ， 我 们 需要 确认 是 否 安装 了 MXNet 的 GPU 版 本 。 安 装 方法 见 2.1 节 。 运 行 本 节 中 
的 程序 需要 至 少 2 块 GPU. 


4.6.1 计算 设备 


MXNet 可 以 指定 用 来 存储 和 计算 的 设备 ， 如 使 用 内 存 的 CPU 或 者 使 用 显存 的 GPU。 在 
默认 情况 下 ，MXNet 会 将 数据 创建 在 内 存 ， 然 后 利用 CPU 来 计算 。 在 MXNet 中 ，mx.cpu() 
(或 者 在 括号 里 填 任 意 整 数 ) 表示 所 有 的 物理 CPU 和 内 存 。 这 意味 着 ，MXNet 的 计算 会 尽量 
使 用 所 有 的 GPU 核 。 但 mx.gpu() 只 代表 一 块 GPU 和 相应 的 显存 。 如 果 有 多 块 GPU， 我 们 用 
mx.gpu(i) 来 表示 第 i 块 GPU 及 相应 的 显存 (i 从 0 开始 ) H mx.gpu(9) 和 mx.gpu() 等 价 。 

In [2]: import mxnet as mx 


from mxnet import nd 
from mxnet.gluon import nn 


mx.cpu(), mx.gpu(), mx.gpu(1) 


Out[2]: (cpu(0), gpu(0), gpu(1)) 


4.6.2 NDArray 的 GPU 计 算 


在 默认 情况 下 ，NDArray 存在 内 存 上 。 因 此 ， 之 前 我 们 每 次 打印 NDArray 的 时 候 都 会 看 
到 ecpu(9) 这 个 标识 。 


In” (33: = nd.array([1, 2, 3]) 


X 
X 
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Out[3]: 
ee Tae Sii 
<NDArray 3 @cpu(0)> 


我 们 可 以 通过 NDArray 的 context 属性 来 查看 该 NDArray 所 在 的 设备 。 


In [4]: x.context 


Out[4]: cpu(0) 


1. GPU 上 的 存储 


我 们 有 多 种 方法 将 NDArray 存储 在 显存 上 。 例 如 ， 我 们 可 以 在 创建 NDArray 的 时 候 通 过 
ctx 参数 指定 存储 设备 。 下 面 我 们 将 NDArray 变量 a 创建 在 gpu(o) 上 。 注 意 ， 在 打印 a 时 ， 
设备 信息 变 成 了 @gpu(9)。 创 建 在 显存 上 的 NDArray 只 消耗 同一 块 显卡 的 显存 。 我 们 可 以 通 
过 nvidia-smi 命令 查看 显存 的 使 用 情况 。 通 常 ， 我 们 需要 确保 不 创建 超过 显存 上 限 的 数据 。 


In [5]: a = nd.array([{1, 2, 3], ctx=mx.gpu()) 
a 


Out[5]: 
fly 2s Sel 
<NDArray 3 @gpu(0)> 


假设 至 少 有 2 块 GPU， 下 面 代 码 将 会 在 gpu (1) 上 创建 随机 数组 。 


In [6]: B = nd.random.uniform(shape=(2, 3), ctx=mx.gpu(1)) 
B 


Out[6]: 
[ [0.59119 0.313164 ©.76352036 ] 
[0.9731786 0.35454726 0.11677533] ] 
<NDArray 2x3 @gpu(1)> 


除了 在 创建 时 指定 ， 我 们 也 可 以 通过 copyto HAA as_in_context 函数 在 设备 之 间 传 
输 数 据 。 下 面 我 们 将 内 存 上 的 NDArray 变量 x 复制 到 gpu(6) 上 。 


In [7]: y = x.copyto(mx.gpu()) 
y 


Out[7]: 
fle Bese 
<NDArray 3 @gpu(0)> 


In [8]: z = x.as_in_context(mx.gpu() ) 
Z 


Out[8]: 
cle Ge ed 
<NDArray 3 @gpu(0)> 


需要 区 分 的 是 ， 如 果 源 变量 和 目标 变量 的 context —#, as_in_context 函数 使 目标 变 
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量 和 源 变量 共享 源 变量 的 内 人 存 或 显存 。 
In [9]: y.as_in_context(mx.gpu()) is y 


Out[9]: True 
而 copyto 函数 总 是 为 目标 变量 开 新 的 内 存 或 显存 。 


In [10]: y.copyto(mx.gpu()) is y 


Out[10]: False 


2. GPU 上 的 计算 


MXNet 的 计算 会 在 数据 的 context 属性 所 指定 的 设备 上 执行 。 为 了 使 用 GPU 计算 ， 我 们 
只 需要 事先 将 数据 存储 在 显存 上 。 计 算 结果 会 自动 保存 在 同一 块 显 卡 的 显存 上 。 


In [11]: (z + 2).exp() * y 


Out[11]: 
[ 20.085537 109.1963 445.2395 | 
<NDArray 3 @gpu(0)> 
YER, MXNet 要 求 计算 的 所 有 输入 数据 都 在 内 存 或 同一 块 显卡 的 显存 上 。 这 样 设 计 的 原 
KÆ CPU 和 不 同 的 GPU 之 间 的 数据 交互 通常 比较 耗 时 。 因 此 ，MXNet 希望 用 户 确 切 地 指明 
计算 的 输入 数据 都 在 内 存 或 同一 块 显卡 的 显存 上 。 例 如 ， 如 果 将 内 存 上 的 NDArray 变量 x 和 
显存 上 的 NDArray 变量 y 做 运算 ， 会 出 现 错误 信息 。 当 我 们 打印 NDArray 或 将 NDArray 转换 
成 NumPy 格式 时 ， 如 果 数 据 不 在 内 存 里 ，MXNet 会 将 它 先 复制 到 内 存 ， 从 而 造成 额外 的 传输 
开销 。 


4.6.3 Gluon 的 GPU 计算 


同 NDArray 类 似 ，Gluon 的 模型 可 以 在 初始 化 时 通过 ctx 参数 指定 设备 。 下 面 的 代码 将 
模型 参数 初始 化 在 显存 上 。 
In [12]: net = nn.Sequential() 


net.add(nn.Dense(1)) 
net. initialize(ctx=mx.gpu()) 


当 输入 是 显存 上 的 NDArray It, Gluon 会 在 同一 块 显卡 的 显存 上 计算 结果 。 


In [13]: net(y) 


Out[13]: 

[[0.0068339 | 
[0.01366779] 
[0.02050169] ] 

<NDArray 3x1 @gpu(0)> 


下 面 我 们 确认 一 下 模型 参数 存储 在 同一 块 显卡 的 显存 上 。 
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In [14]: net[0].weight.data() 


Out[14]: 
[[0.0068339] ] 
<NDArray 1x1 @gpu(0)> 


小 结 
© MXNet 可 以 指定 用 来 存储 和 计算 的 设备 ， 如 使 用 内 存 的 CPU 或 者 使 用 显存 的 GPU。 在 默认 
情况 下 ，MXNet 会 将 数据 创建 在 内 存 上 ， 然 后 利用 CPU 来 计算 。 
© MXNet 要 求 计 算 的 所 有 输入 数据 都 在 内 存 或 同一 块 显 卡 的 显存 上 。 


练习 

(1) 试 试 大 一 点 儿 的 计算 任务 ， 如 大 和 矩阵 的 乘法 ， 看 看 使 用 CPU 和 GPU 的 速度 区 别 。 如 果 是 
计算 量 很 小 的 任务 呢 ? 

(2) GPU 上 应 如 何 读 写 模型 参数 ? 








本 章 将 介绍 卷 积 神经 网 络 ， 它 是 近年 来 深度 学 习 能 在 计算 机 视觉 领域 取得 突破 性 成 果 的 
基石 。 它 也 逐渐 在 被 其 他 诸如 自然 语言 处 理 、 推 荐 系统 和 语 普 识别 等 领域 广泛 使 用 。 我 们 将 
先 描述 卷 积 神经 网 络 中 卷 积 层 和 池 化 层 的 工作 原理 ， 并 解释 填充 、 步 幅 、 输 入 通道 和 输出 通 
道 的 含义 。 在 掌握 了 这 些 基础 知识 以 后 ， 我 们 将 探究 数 个 具有 代表 性 的 深度 卷 积 神经 网 络 的 
设计 思路 。 这 些 模型 包括 最 早 提 出 的 AlexNet， 以 及 后 来 的 使 用 重复 元 素 的 网 络 (VGG)、 网 
络 中 的 网 络 (NiN)、 含 并 行 连结 的 网 络 (GoogLeNet)、 残 差 网 络 (ResNet) All Mal FE Re 2 
(DenseNet)。 它 们 中 有 不 少 在 过 去 几 年 的 ImageNet 比赛 (一 个 著名 的 计算 机 视觉 竞赛 ) 中 
大 放 异 彩 。 虽 然 深度 模型 看 上 去 只 是 具有 很 多 层 的 神经 网 络 ， 然 而 获得 有 效 的 深度 模型 并 不 
上 容易。 有幸 的 是 ， 本 章 前 述 的 批量 归 一 化 和 残 差 网 络 为 训练 和 设计 深度 模型 提供 子 两 类 重要 
思路 。 


51 二 维 卷 积 层 


卷 积 神经 网 络 (convolutional neural network) 是 含有 卷 积 层 (convolutional 
layer) 的 神经 网 络 。 本 章 中 介绍 的 卷 积 神经 网 络 均 使 用 最 常见 的 二 维 若 积 
层 。 它 有 高 和 宽 两 个 空间 维度 ， 常 用 来 处 理 图 像 数 据 。 本 证 中， 我们 将 介 
绍 人 简单 形式 的 二 维 卷 积 层 的 工作 原理 。 





5.1.1. 二 维 互 相关 运算 


虽然 卷 积 层 得 名 于 卷 积 (convolution〉 运算 ， 但 我 们 通常 在 卷 积 层 中 使 用 更 加 直观 的 互相 
K (cross-correlation) 运算 。 在 二 维 卷 积 层 中 ， 一 个 二 维 输入 数组 和 一 个 二 维 核 (kernel) 数 
组 通过 互相 关 运 算 输 出 一 个 二 维 数组 。 我 们 用 一 个 具体 例子 来 解释 二 维 互 相关 运算 的 含义 。 如 
图 5-1 所 示 ， 输 入 是 一 个 高 和 宽 均 为 3 的 二 维 数组 。 我们 将 该 数组 的 形状 记 为 3x3 或 (3, 3)。 
核 数组 的 高 和 宽 分 别 为 2。 该 数组 在 卷 积 计算 中 又 称 卷 积 核 或 过 滤器 (filter)。 卷 积 核 窗 口 〈 又 
尔 卷 积 窗口 ) 的 形状 取决 于 卷 积 核 的 高 和 宽 ， 即 2x 2。 图 5-1 中 的 阴影 部 分 为 第 一 个 输出 元 系 
及 其 计算 所 使 用 的 输入 和 核 数 组 元 素 : OxO+1x14+3x24+4x3=19. 
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5-1 二 维 互 相关 运算 


在 二 维 互 相关 运算 中 ， 卷 积 窗口 从 输入 数组 的 最 左上 方 开 始 ， 按 从 左 往 右 、 从 上 往 下 的 顺 
序 ， 依 次 在 输入 数组 上 滑动 。 当 卷 积 窗口 滑动 到 某 一 位 置 时 ， 窗 口中 的 输入 子 数组 与 核 数 组 按 
元 素 相 乘 并 求 和 ， 得 到 输出 数组 中 相应 位 置 的 元 素 。 图 5-1 中 的 输出 数组 的 高 和 宽 分 别 为 2， 
其 中 的 4 个 元 素 由 二 维 互 相关 运算 得 出 : 
0x0+1x1+3x2+4x3=19 
1x0+2x1+4x2+5x3=25 
3x0+4x1+6x24+7x3=37 
4x0+5x1+7x2+8x3=43 
下 面 我 们 将 上 述 过 程 实现 在 corr2d 函数 里 。 它 接受 输入 数组 X 与 核 数 组 K， 并 输出 数组 Y。 


In [1]: from mxnet import autograd, nd 
from mxnet.gluon import nn ` 


def corr2d(X, K): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
h, w = K.shape 
Y = nd.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)) 
for i in range(Y.shape[0]): 
for j in range(Y.shape[1]): 
YET IJa GAL 11 H Ap Re eas * KY sane) 
return Y 


我 们 可 以 构造 图 5-1 中 的 输入 数组 X、 核 数组 K 来 验证 二 维 互 相关 运算 的 输出 。 


In LAT Ad array( ttes E; 2h B45 S]; fe; T eN) 
K = nd.array([[0, 1], [2, 3]]) 
corr2d(X, K) 


Out[2]: 
ES 25443 
(37. 43.]] 
<NDArray 2x2 @cpu(0)> 


5.1.2 ”二 维 卷 积 层 


二 维 卷 积 层 将 输入 和 卷 积 核 做 互相 关 运 算 ， 并 加 上 一 个 标量 偏差 来 得 到 输出 。 卷 积 层 的 模 
型 参数 包括 了 卷 积 核 和 标量 偏差 。 在 训练 模型 的 时 候 ， 通 常 我 们 先 对 卷 积 核 随 机 初始 化 ， 然 后 
ASIEN AGAR TE Ah Zo 


下 面 基 于 corr2d 函数 来 实现 一 个 自 定 义 的 二 维 卷 积 层 。 在 构造 函数 __init__ #, Ri 
声明 weight 和 bias 这 两 个 模型 参数 。 前 同 计 算 函 数 forward 则 是 直接 调用 corr2d A% 
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In [3]: class Conv2D(nn.Block): 
def __init__(self, kernel_size, xxkwargs): 
super(Conv2D, self).__init__(*xxkwargs) 
self.weight = self.params.get('weight', shape=kernel_size) 
self.bias = self.params.get('bias', shape=(1,)) 


def forward(self, x): 
return corr2d(x, self.weight.data()) + self.bias.data() 
卷 积 窗口 形状 为 p xg 的 卷 积 层 称 为 pxg 卷 积 层 。 同 样 ，p xg 卷 积 或 p xg ERRIA h HE 
只 核 的 高 和 宽 分 别 为 p 和 gq。 


5.1.3 图 像 中 物体 边缘 检测 

下 面 我 们 来 看 一 个 卷 积 层 的 简单 应 用 一 一 检测 图 像 中 物体 的 边缘 ， 即 找到 像素 变化 的 位 
置 。 首 先 我 们 构造 一 张 6x8 的 图 像 〈( 即 高 和 宽 分 别 为 6 像素 和 8 BANA). EPA 4 列 为 
黑 (0), HEKA (1). 


In [4]: X = nd.ones((6, 8)) 
Alty 236] ='6 


村 
PI pe 
mope po 
opppe 
ee oo? 
22°22 
Pree ee 
us deed ts oe Na 


fae ax Os Os Ge Gs 1 
<NDArray 6x8 @cpu(0) 


然后 我 们 构造 一 个 高 和 宽 分 别 为 1 和 2 的 卷 积 核 K。 当 它 与 输入 做 互相 关 运 算 时 ， 如 果 横 
向 相 邻 元 素 相 同 ， 输 出 为 0; 否则 输出 为 非 0。 

In [5]: K = nd.array([{[1, -1]]) 

下 面 将 输入 X 和 我 们 设计 的 卷 积 核 K 做 互相 关 运 算 。 可 以 看 出 ， 我 们 将 从 日 到 黑 的 边缘 和 
从 黑 到 白 的 边缘 分 别 检测 成 了 1 和 -1。 其 余部 分 的 输出 全 是 0。 


In (61% Y = corr2d(xX, K) 


1 
1 
1. 
ds 
1 
1 
> 


Y 
Out[6] 

bp at sy Oe 
[OS +.» Aen ar R. 过 SB al 
Die. ie, SoMa Se 和 
[< 
COs. the Se TE “Li: 6.) 
[Oe 48s es By Va Od] 

<NDArray 6x7 @cpu(O) > 
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由 此 ， 我 们 可 以 看 出 ， 卷 积 层 可 通过 重复 使 用 卷 积 核 有 效 地 表征 局 部 空间 。 


5.1.4 通过 数据 学 习 核 数组 


最 后 我 们 来 看 一 个 例子 ， 它 使 用 物体 边缘 检测 中 的 输入 数据 X 和 输出 数据 Y 来 学 习 我 们 构 
造 的 核 数 组 K。 我 们 首先 构造 一 个 卷 积 层 ， 将 其 卷 积 核 初 始 化 成 随机 数组 。 接 下 来 在 每 一 次 碗 
代 中 ， 我 们 使 用 平方 误差 来 比较 Y 和 卷 积 层 的 输出 ， 然 后 计算 梯度 来 更 新 权重 。 简 单 起 见 ， 这 
里 的 卷 积 层 忽 略 了 偏差 。 


虽然 我 们 之 前 构造 了 Conv2D 类 ， 但 由 于 corr2d 使 用 了 对 单个 元 素 赋 值 〈 [i, j]=〉 的 操 
作 因 而 无 法 自动 求 梯度 。 下 面 我 们 使 用 Gluon 提供 的 Conv2D 类 来 实现 这 个 例子 。 


In [7]: # 构造 一 个 输出 通道 数 为 1 (将 在 5 . 3 节 介 绍 通道 ) ， 核 数组 形状 是 (1，2) 的 二 维 卷 积 层 
conv2d = nn.Conv2D(1, kernel_size=(1, 2)) 
conv2d.initialize() 


# 二 维 卷 积 层 使 用 4 维 输入 输出 ， 格 式 为 (样本 ， 通道 ， 高 ， 宽 ) ， 这 里 批量 大 小 〈 批 量 中 的 样本 数 ) 和 通 
# 道 数 均 为 1 

X = X.reshape((1, 1, 6, 8)) 

Y = Y.reshape((1, 1, 6, 7)) 


for i in range(10): 
with autograd.record(): 
Y_hat = conv2d(X) 
lL = (Y_hat = Y) ** 2 
Ll. backward () 
# 简单 起 见 ， 这 里 忽略 了 偏差 
conv2d.weight.data()[:] -= 3e-2 * conv2d.weight.grad() 
if (i + 1) % 2 == 0: 
print('batch %d, loss %.3f' % (i + 1, 1l.sum().asscalar())) 


batch 2, loss 4.949 
batch 4, loss 0.831 
batch 6, loss 0.140 
batch 8, loss 0.024 
batch 10, loss 0.004 


可 以 看 到 ，10 次 迭代 后 误差 已 经 降 到 了 一 个 比较 小 的 值 。 现 在 来 看 一 下 学 习 到 的 核 数 组 。 
In [8]: conv2d.weight.data().reshape((1, 2)) 
Out[8]: 

[[ 0.9895 -0.9873705] ] 

<NDArray 1x2 @cpu(0)> 


可 以 看 到 ， 学 习 到 的 核 数组 与 我 们 之 前 定义 的 核 数 组 K 较 接 近 。 


5.1.5 互相 关 运 算 和 卷 积 运算 
实际 上 ， 卷 积 运算 与 互相 关 运算 类 似 。 为 了 得 到 卷 积 运算 的 输出 ， 我 们 只 需 将 核 数组 左右 
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翻转 并 上 下 翻转 ， 再 与 输入 数组 做 互相 关 运 算 。 可 见 ， 卷 积 运算 和 互相 关 运 算 虽 然 类 似 ， 但 如 
果 它 们 使 用 相同 的 核 数组 ， 对 于 同一 个 输入 ， 输 出 往往 并 不 相同 。 


那么 ， 你 也 许 会 好 奇 卷 积 层 为 何 能 使 用 互相 关 运 算 替 代 卷 积 运算 。 其 实 ， 在 深度 学 习 中 核 
数组 都 是 学 习 出 来 的 : 卷 积 层 无 论 使 用 互相 关 运 算 或 卷 积 运算 都 不 影响 模型 预测 时 的 输出 。 为 
了 解释 这 一 点 ， 假 设 卷 积 层 使 用 互相 关 运 算 学 习 出 图 5-1 中 的 核 数组 。 设 其 他 条 件 不 变 ， 使 用 
卷 积 运算 学 习 出 的 核 数 组 即 图 5-1 中 的 核 数组 按 上 下 、 左 右 翻 转 。 也 就 是 说 ， 图 5-1 中 的 输入 
与 学 习 出 的 已 翻转 的 核 数 组 再 做 卷 积 运算 时 ， 依 然 得 到 图 5-1 中 的 输出 。 为 了 与 大 多 数 深 度 学 
习 文献 一 致 ， 如 无 特别 说 明 ， 本 书 中 提 到 的 卷 积 运算 均 指 互相 关 运 算 。 


5.1.6 特征 图 和 感受 野 


二 维 卷 积 层 输出 的 二 维 数组 可 以 看 作 输 入 在 空间 维度 〈 宽 和 高 ) 上 某 一 级 的 表征 ， 也 叫 特 
征 图 (feature map )。 影 响 元 素 x 的 前 向 计算 的 所 有 可 能 输入 区 域 〈 可 能 大 于 输入 的 实际 尺寸 ) 
MULE x 的 感受 野 (receptive field)。 以 图 5-1 为 例 ， 输 入 中 阴影 部 分 的 4 个 元 素 是 输出 中 阴影 
部 分 元 素 的 感受 野 。 我 们 将 图 5-1 中 形状 为 2 x 2 的 输出 记 为 Y， 并 考虑 一 个 更 深 的 卷 积 神经 网 
络 : 将 了 与 另 一 个 形状 为 2x2 的 核 数 组 做 互相 关 运 算 ， 输 出 单个 元 素 z。 那 么 ，z 在 了 上 的 感 
受 野 包括 了 的 全 部 4 个 元 素 ， 在 输入 上 的 感受 野 包括 其 中 全 部 9 个 元 素 。 可 见 ， 我 们 可 以 通过 
更 深 的 卷 积 神经 网 络 使 特征 图 中 单个 元 素 的 感受 野 变 得 更 加 广阔 ， 从 而 捕捉 输入 上 更 大 斥 寸 的 
特征 。 

我 们 常 使 用 “元 素 ” 一 词 来 摘 述 数组 或 矩阵 中 的 成 员 。 在 神经 网 络 的 术语 中 ， 这 些 元 素 也 
可 称 为 “单元 ”。 当 含义 明确 时 ， 本 书 不 对 这 两 个 术语 做 严格 区 分 。 


二 维 卷 积 层 的 核心 计算 是 二 维 互 相关 运算 。 在 最 简单 的 形式 下 ， 它 对 二 维 输入 数据 和 卷 积 核 
做 互相 关 运 算 然 后 加 上 偏差 。 

可 以 设计 卷 积 核 来 检测 图 像 中 的 边缘 。 

可 以 通过 数据 来 学 习 卷 积 核 。 


(1) 构造 一 个 输入 图 像 X， 令 它 有 水 平方 向 的 边缘 。 如 何 设计 卷 积 核 K 来 检测 图 像 中 水 平 边缘 ? 
如 果 是 对 角 方 向 的 边缘 呢 ? 

(2) 试 着 对 我 们 自己 构造 的 Conv2D 类 进行 自动 求 梯 度 ， 会 有 什么 样 的 错误 信息 ? 在 该 类 的 
forward BKB, 4% corr2d 函数 替换 成 nd .Convolution 类 使 得 自动 求 梯度 变 得 可 行 。 

(3) 如 何 通 过 变化 输入 和 核 数组 将 互相 关 运 算 表 示 成 一 个 矩阵 乘法 ? 

(4) 如 何 构 造 一 个 全 连接 层 来 进行 物体 边缘 检测 ? 
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5.2 ”填充 和 步 幅 
[m] 






在 5.1 节 的 例子 里 ， 我 们 使 用 高 和 宽 为 3 的 输入 与 高 和 宽 为 2 的 卷 积 [m] 
核 得 到 高 和 宽 为 2 的 输出 。 一 般 来 说 ， 假 设 输 入 形状 是 xn,,， 卷 积 核 窗 
口 形状 是 x,， 那 么 输出 形状 将 会 是 | 
(n, —k, +1) x (n, —k, +1) oft 
所 以 卷 积 层 的 输出 形状 由 输入 形状 和 卷 积 核 窗口 形状 决定 。 本 节 我 们 将 介绍 卷 积 层 的 两 个 
超 参 数 ， 即 填充 和 步 幅 。 它 们 可 以 对 给 定形 状 的 输入 和 卷 积 核 改 变 输出 形状 。 


5.2.1 MR 

填充 (padding) 是 指 在 输入 高 和 宽 的 两 侧 填 充 元 素 〈 通 和 是 OTR). A 5-2 里 我 们 在 原 
输入 高 和 宽 的 两 侧 分 别 添加 了 值 为 0 的 元 素 ， 使 得 输入 高 和 宽 从 3 变 成 了 5， 并 导致 输出 高 和 
宽 由 2 增加 到 4。 图 5-2 中 的 阴影 部 分 为 第 一 个 输出 元 素 及 其 计算 所 使 用 的 输入 和 核 数组 元 素 : 
0x0+0x1+0x2+0x3=0¢ 


输出 


向 民 已 加 
es si 
Gaug 










5-2 ”在 输入 的 高 和 宽 两 侧 分 别 填充 了 0 元 素 的 二 维 互 相关 计算 


一 般 来 说 ， 如 果 在 高 的 两 侧 一 共 填 充 p; 行 ， 在 宽 的 两 侧 一 共 填 充 p,, 列 ， 那 么 输出 形状 将 
会 是 
eke tP +1) x (n, -kpt p, +3) 
也 就 是 说 ， 输 出 的 高 和 宽 会 分 别 增加 p, 和 p,,- 


在 很 多 情况 下 ， 我 们 会 设置 Pr =k, 一 1 和 py =, 一 1 来 使 输入 和 输出 具有 相同 的 高 和 宽 。 
这 样 会 方便 在 构造 网 络 时 推测 每 个 层 的 输出 形状 。 假 设 这 里 右 是 奇数 ， 我 们 会 在 高 的 两 侧 分 
别 填充 pi/2 行 。 如 果 厂 是 偶数 ， 一 种 可 能 是 在 输入 的 顶端 一 侧 填 充 | pn/2 147, MER — 1 
填充 | pn/2 | 行 。 在 宽 的 两 侧 填 充 同 理 。 


卷 积 神经 网 络 经 常 使 用 奇数 高 和 宽 的 卷 积 核 ， 如 1、3、5 和 7， 所 以 两 端 上 的 填充 个 数 相 
等 。 对 任意 的 二 维 数 组 Xx， 设 它 的 第 i 行 第 j 列 的 元 素 为 X[i，j] 。 当 两 端 上 的 填充 个 数 相等 ， 
并 使 输入 和 输出 具有 相同 的 高 和 宽 时 ， 我 们 就 知道 输出 Y[i，j] 是 由 输入 以 X[i，j] 为 中 心 
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的 窗口 同 卷 积 核 进行 互相 关 计 算得 到 的 。 
下 面 的 例子 里 我 们 创建 一 个 高 和 宽 为 3 的 二 维 卷 积 层 ， 然 后 设 输入 高 和 宽 两 侧 的 填充 数 分 
别 为 1。 给 定 一 个 高 和 宽 为 8 的 输入 ， 我 们 发 现 输出 的 高 和 宽 也 是 8。 


In [1]: from mxnet import nd 
from mxnet.gluon import nn 


# 定义 一 个 函数 来 计算 卷 积 层 。 它 初始 化 卷 积 层 权重 ， 并 对 输入 和 输出 做 相应 的 升 维和 降 维 
def comp_conv2d(conv2d, X): 

conv2d.initialize() 

# (1，1) 代 表 批 量 大 小 和 通道 数 (5 .3 节 将 介绍 ) 均 为 1 

X = X.reshape((1, 1) + X.shape) 

Y = conv2d(X) 

return Y.reshape(Y.shape[2:]) # 排除 不 关心 的 前 两 维 : 批量 和 通道 


# 注意 这 里 是 两 侧 分 别 填充 1 行 或 列 ， 所 以 在 两 侧 一 共 填 充 2 行 或 列 
conv2d = nn.Conv2D(1, kernel_size=3, padding=1) 

X = nd.random.uniform(shape=(8, 8)) 
comp_conv2d(conv2d, X).shape 


Out[1]: (8, 8) 


当 卷 积 核 的 高 和 宽 不 同时 ， 我 们 也 可 以 通过 设置 高 和 宽 上 不 同 的 填充 数 使 输出 和 输入 具有 
相同 的 高 和 宽 。 


In [2]: # 使 用 高 为 5、 宽 为 3 的 卷 积 核 。 在 高 和 宽 两 侧 的 填充 数 分 别 为 2 和 1 
conv2d = nn.Conv2D(1, kernel_size=(5, 3), padding=(2, 1)) 
comp_conv2d(conv2d, X).shape 


Out[2]: (8, 8) 


5.2.2 步 幅 


在 5.1 节 里 我 们 介绍 了 二 维 互 相关 运算 。 卷 积 窗口 从 输入 数组 的 最 左上 方 开 始 ， 按 从 左 
往 右 、 从 上 往 下 的 顺序 ， 依 次 在 输入 数组 上 滑动 。 我 们 将 每 次 滑动 的 行 数 和 列 数 称 为 步 幅 
(stride). 


目前 我 们 看 到 的 例子 里 ， 在 高 和 宽 两 个 方向 上 步 幅 均 为 1。 我 们 也 可 以 使 用 更 大 步 幅 。 图 
5-3 展示 了 在 高 上 步 幅 为 3、 在 宽 上 步 幅 为 2 的 二 维 互 相关 运算 。 可 以 看 到 ， 输 出 第 一 列 第 二 
个 元 素 时 ， 卷 积 窗口 同 下 滑动 了 3 行 ， 而 在 输出 第 一 行 第 二 个 元 素 时 卷 积 窗口 向 右 滑动 了 2 列 。 
当 卷 积 窗 口 在 输入 上 再 向 右 滑动 2 列 时 ， 由 于 输入 元 素 无 法 填 满 窗口 ， 无 结果 输出 。 图 5-3 
中 的 阴影 部 分 为 输出 元 素 及 其 计算 所 使 用 的 输入 和 核 数 组 元 素 : 0x0+0x1+1x2+2x3=8 
Ox0+6xl1l+0x2+0x3=6。 
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输出 





图 5-3 高 和 宽 上 步 幅 分 别 为 3 和 2 的 二 维 互相 关 运算 
一 般 来 说 ， 当 高 上 步 幅 为 5;$， 宽 上 步 幅 为 5, 时， 输出 形状 为 
| (mx -k + Ph +5,)/ Sp, | x | (my —k, + Pw +5,)/Sy | 

如 果 设 置 Pr =k, 一 1 和 p= 不 , 一 1， 那 么 输出 形状 将 简化 为 [ (nj +5, —1)/s, | x [(m, +s —1)/ Sy Je 
更 进一步 ， 如 果 输 入 的 高 和 宽 能 分 别 被 高 和 宽 上 的 步 幅 整除 ， 那 么 输出 形状 将 是 Sh) x 
(n,,/S,,)o 

下 面 我 们 令 高 和 宽 上 的 步 幅 均 为 2， 从 而 使 输入 的 高 和 宽 减 半 。 

In [3]: conv2d = nn.Conv2D(1, kernel_size=3, padding=1, strides=2) 

comp_conv2d(conv2d, X).shape 


Out[3]: (4, 4) 


接 下 来 是 一 个 稍微 复杂 点 儿 的 例子 。 


In [4]: conv2d = nn.Conv2D(1, kernel_size=(3, 5), padding=(0, 1), strides=(3, 4)) 
comp_conv2d(conv2d, X).shape 


Out[4]: (2, 2) 


ANS Sea a Ye) SWA aA E SFE AN Dn A p,, 时 ， 我 们 称 填充 为 (ph, Pwo 
特别 地 ， 当 ph = pw = Pp 了 时 ， 填 充 为 p。 当 在 高 和 宽 上 的 步 幅 分 别 为 $% Als, 时 ， 我 们 称 步 幅 为 
(54, Sw)。 特 别 地 ， 当 s, =sw =s 时 ， 步 幅 为 s。 在 默认 情况 下 ， 填 充 为 0， 步 幅 为 1。 


填充 可 以 增加 输出 的 高 和 宽 。 这 常用 来 使 输出 与 输入 具有 相同 的 高 和 宽 。 
步 幅 可 以 减 小 输出 的 高 和 宽 ， 例 如 输出 的 高 和 宽 仅 为 输入 的 高 和 宽 的 1/n (n 为 大 于 1 的 
整数 )。 


练习 
(1) 对 本 节 最 后 一 个 例子 通过 形状 计算 公式 来 计算 输出 形状 ， 看 看 是 否 和 实验 结果 一 致 。 
(2) 在 本 节 实 验 中 ， 试 一 试 其 他 的 填充 和 步 幅 组 合 。 
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5.3， 多 输入 通道 和 多 输出 通道 
[m] 










5.1 节 和 5.2 节 里 我 们 用 到 的 输入 和 输出 都 是 二 维 数组 ， 但 真实 数据 的 [m] 
维度 经 常 更 高 。 例 如 ， 彩 色 图 像 在 高 和 宽 2 个 维度 外 还 有 RGB 〈 红 、 绿 、 丁 
蓝 ) 3 个 颜色 通道 。 假 设 彩色 图 像 的 高 和 宽 分 别 是 六 和 ww〈 像 素 )， 那 么 它 
可 以 表示 为 一 个 3xhxw 的 多 维 数组 。 我 们 将 大 小 为 3 的 这 一 维 称 为 通道 ”加 ] 
(channel) 维 。 本 节 我 们 将 介绍 含 多 个 输入 通道 或 多 个 输出 通道 的 卷 积 核 。 


5.3.1 多 输入 通道 


当 输 入 数据 含 多 个 通道 时 ， 我 们 需要 构造 一 个 输入 通道 数 与 输入 数据 的 通道 数 相同 的 卷 积 
核 ， 从 而 能 够 与 含 多 通道 的 输入 数据 做 互相 关 运 算 。 假 设 输 入 数据 的 通道 数 为 c， 那 么 卷 积 核 
的 输入 通道 数 同样 为 c。 设 卷 积 核 窗口 形状 为 三 xk,。 当 ci =1 时 ， 我 们 知道 卷 积 核 只 包含 一 
个 形状 为 所 x 的 二 维 数组 。 当 c; > 1 时 ， 我 们 将 会 为 每 个 输入 通道 各 分 配 一 个 形状 为 后 x k, 
的 核 数 组 。 把 这 c 个 数组 在 输入 通道 维 上 连结 ， 即 得 到 一 个 形状 为 c x ky x 大 ,的 卷 积 核 。 由 于 
输入 和 卷 积 核 各 有 c, 个 通道 ， 我 们 可 以 在 各 个 通道 上 对 输入 的 二 维 数组 和 卷 积 核 的 二 维 核 数组 
做 互相 关 运 算 ， 再 将 这 c; 个 互相 关 运 算 的 二 维 输出 按 通 道 相 加 ， 得 到 一 个 二 维 数组 。 这 就 是 仿 
多 个 通道 的 输入 数据 与 多 输入 通道 的 卷 积 核 做 二 维 互 相关 运算 的 输出 。 

图 5-4 展示 了 含 2 个 输入 通道 的 二 维 互 相关 计算 的 例子 。 在 每 个 通道 上 ， 二 维 输入 数组 与 


二 维 核 数 组 做 互相 关 运 算 ， 再 按 通道 相 加 即 得 到 输出 。 图 5-4 中 阴影 部 分 为 第 一 个 输出 元 素 及 其 
计算 所 使 用 的 输入 和 核 数组 元 素 : (LIx1+2x2+4x3+5x4)+(0x0+1xl+3x2+4x3) = 56, 





5 人 个 输入 通道 的 互相 关 计 算 


接 下 来 我 们 实现 含 多 个 输入 通道 的 互相 关 运 算 。 我 们 只 需要 对 每 个 通道 做 互相 天 运算 ， 然 
后 通过 add_n 函数 来 进行 累加 。 


5.3 ”多 输入 通道 和 多 输出 通道 + 115° 


In [1]: import d2Lzh as d21 
from mxnet import nd 


def corr2d_multi_in(X, K): 
# 首先 沿 着 X 和 K 的 第 6 维 (通道 维 ) 遍历 。 然 后 使 用 * 将 结果 列表 变 成 add_n 函 数 的 位 置 参数 
# (positional argument) 来 进行 相 加 
return nd.add_n(*[d2l.corr2d(x, k) for x, k in zip(X, K)]) 


我 们 可 以 构造 图 5-4 中 的 输入 数组 X、 核 数组 K 来 验证 互相 关 运 算 的 输出 。 


In [2]: X = nd.array([((0, 1, 2], (3, 4, 5], [6, 7, 8]], 
EE 
K = mdarvegtt lle 13, £2, 3]),) ft 23, G HH) 


corr2d_multi_in(X, K) 


Out[2]: 
E 56.. 72.] 
[104. 120.]] 
<NDArray 2x2 @cpu(Q)> 


5.3.2 ”多 输出 通道 

当 输 入 通道 有 多 个 时 ， 因 为 我 们 对 各 个 通道 的 结果 做 了 累加 ， 所 以 不 论 输入 通道 数 是 多 
少 ， 输 出 通道 数 总 是 为 1。 设 卷 积 核 输入 通道 数 和 输出 通道 数 分 别 为 ;和 c6， 高 和 宽 分 别 为 ky 
和 kk,,。 如 果 希 望 得 到 含 多 个 通道 的 输出 ， 我 们 可 以 为 每 个 输出 通道 分 别 创建 形状 为 c; x x ky 
的 核 数 组 。 将 它们 在 输出 通道 维 上 连结 ， 卷 积 核 的 形状 即 c, xe, xk, xk，。 在 做 互相 关 运 算 时 ， 
每 个 输出 通道 上 的 结果 由 卷 积 核 在 该 输出 通道 上 的 核 数 组 与 整个 输入 数组 计算 而 来 。 


下 面 我 们 实现 一 个 互相 关 运 算 函 数 来 计算 多 个 通道 的 输出 。 


In [3]: def corr2d_multi_in_out(X, K): 
# 对 K 的 第 6 维 遍历 ， 每 次 同 输入 X 做 互相 关 计 算 。 所 有 结果 使 用 stack 函 数 合 并 在 一 起 
return nd.stack(*[corr2d_multi_in(X, k) for k in K]) 


我 们 将 核 数 组 E K+. 1 CK 中 每 个 元 素 加 一 ) 和 K+2 连结 在 一 起 来 构造 一 个 输出 通道 数 
为 3 的 卷 积 核 。 

In [4]: K = nd.stack(K, K + 1, K + 2) 

K.shape 

OUtTSI*s. (3,.2, 2, 2) 

下 面 我 们 对 输入 数组 x 与 核 数 组 K 做 互相 关 运 算 。 此 时 的 输出 含有 3 个 通道 ， 其 中 第 一 个 
通道 的 结果 与 之 前 输入 数组 xX 与 多 输入 通道 、 单 输出 通道 核 的 计算 结果 一 致 。 

In [5]: corr2d_multi_in_out(X, K) 


Out[5]: 
LLE S56. Fås] 
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[104. 120.]] 


LE 767-100: | 
[148. 172.]] 


[[ 96. 128.] 
[192. 224.]]] 
<NDArray 3x2x2 @cpu(0)> 


5.3.3 1x 1 卷 积 层 


最 后 我 们 讨论 卷 积 窗口 形状 为 1x1(k, =k, =D 的 多 通道 卷 积 层 。 我 们 通常 称 之 为 1xl 卷 
积 层 ， 并 将 其 中 的 卷 积 运算 称 为 1x1 卷 积 。 因 为 使 用 了 最 小 窗口 ，1x1 卷 积 失去 了 卷 积 层 可 以 
识别 高 和 宽 维 度 上 相 邻 元 素 构 成 的 模式 的 功能 。 实 际 上 ，1x1 卷 积 的 主要 计算 发 生 在 通道 维 上 。 
图 5-5 展示 了 使 用 输入 通道 数 为 3、 输 出 通道 数 为 2 的 1x1 卷 积 核 的 互相 关 计 算 。 值 得 注意 的 
是 ， 输 入 和 输出 具有 相同 的 高 和 宽 。 输 出 中 的 每 个 元 素来 自 输入 中 在 高 和 宽 上 相同 位 置 的 元 素 
在 不 同 通道 之 间 的 按 权重 累加 。 假 设 我 们 将 通道 维 当 作 特 征 维 ， 将 高 和 宽 维 度 上 的 元 素 当 成 数 
据 样 本 ， 那 么 1x1 卷 积 层 的 作用 与 全 连接 层 等 价 。 


输出 





5-5 ”使 用 输入 通道 数 为 3、 输 出 通道 数 为 2 的 1 x 1 卷 积 核 的 互相 关 计 算 。 
输入 和 输出 具有 相同 的 高 和 宽 


下 面 我 们 使 用 全 连接 层 中 的 矩阵 乘法 来 实现 1x1 卷 积 。 这 里 需要 在 矩阵 乘法 运算 前 后 对 数 
据 形状 做 一 些 调整 。 


In [6]: def corr2d_multi_in_out_1x1(X, K): 
c_i, h, w = X.shape 
c_o = K.shape[0] 
X = X.reshape((c_i, h * w)) 
K = K.reshape((c_o, c_i)) 
Y = nd.dot(K, X) # 全 连接 层 的 和 矩阵 乘法 


return Y.reshape((c_o, h, w)) 
经 验证 ， 做 1x1 卷 积 时 ， 以 上 函数 与 之 前 实现 的 互相 关 运 算 函 数 corr2d_multi_in_out 
等 价 。 


In [7]: X = nd.random.uniform(shape=(3, 3, 3)) 
K = nd.random.uniform(shape=(2, 3, 1, 1)) 
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Y1 
Y2 


corr2d_multi_in_out_1x1(X, K) 
corr2d_multi_in_out(X, K) 


(YL 一 Y2).norm().asscalar() < le-6 


Out[7]: True 


在 之 后 的 模型 里 我 们 将 会 看 到 1x1 卷 积 层 被 当 作 保持 高 和 宽 维 度 形 状 不 变 的 全 连接 层 使 
用 。 于 是 ， 我 们 可 以 通过 调整 网 络 层 之 间 的 通道 数 来 控制 模型 复杂 度 。 


使 用 多 通道 可 以 拓展 卷 积 层 的 模型 参数 。 

假设 将 通道 维 当 作 特 征 维 ， 将 高 和 宽 维 度 上 的 元 素 当 成 数据 样本 ， 那 么 1x1 卷 积 层 的 作用 与 
全 连接 层 等 价 。 

1x1 卷 积 层 通 常用 来 调整 网 络 层 之 间 的 通道 数 ， 并 控制 模型 复杂 度 。 


练习 


(1) 假设 输入 形状 为 cixhxw， 且 使 用 形状 为 Co。 XCi Xx 有 XxX、 填充 为 (Ph, Pw) HRA (Sh Sy) 
的 卷 积 核 。 那 么 这 个 卷 积 层 的 前 向 计算 分 别 需要 多 少 次 乘法 和 加 法 ? 

(2) 翻 倍 输入 通道 数 c; 和 输出 通道 数 co 会 增加 多 少 倍 计算 ? 翻 倍 填充 呢 ? 

(3) 如 果 卷 积 核 的 高 和 宽 上 = 上, =1， 能 减少 多 少 计算 ? 

(4) 本 节 最 后 一 个 例子 中 的 变量 Y1 和 Y2 完全 一 致 吗 ? 原因 是 什么 ? 

(5) 当 卷 积 窗口 不 为 1x1 时 ， 如 何 用 矩阵 乘法 实现 卷 积 计算 ? 





5.4 池 化 层 
回忆 一 下 ， 在 5.1 节 里 介绍 的 图 像 物体 边缘 检测 应 用 中 ， 我 们 构造 郑 口 
积 核 从 而 精确 地 找到 了 像素 变化 的 位 置 。 设 任意 二 维 数组 x 的 1 行 j 列 的 =! 
元 素 为 X[1, j] 。 如 果 我 们 构造 的 卷 积 核 输出 YEA, j]=1， 那 么 说 明 输入 中 
KEA, j] 和 Xi, j+1] 数值 不 一 样 。 这 可 能 意味 着 物体 边缘 通过 这 两 个 元 素 ”[] 
之 间 。 但 实际 图 像 里 ， 我 们 感 兴趣 的 物体 不 会 总 出 现在 固定 位 置 ， 即 使 我 
们 连续 拍摄 同一 个 物体 也 极 有 可 能 出 现 像素 位 置 上 的 偏 移 。 这 会 导致 同一 个 边缘 对 应 的 输出 可 
能 出 现在 卷 积 输出 Y 中 的 不 同位 置 ， 进 而 对 后 面 的 模式 识别 造成 不 便 。 


TEATS PRATT RG (pooling) 层 ， 它 的 提出 是 为 了 缓解 卷 积 层 对 位 置 的 过 度 敏 感性 。 






5.4.1 二 维 最 大 池 化 层 和 平均 池 化 层 


同 卷 积 层 一 样 ， 池 化 层 每 次 对 输入 数据 的 一 个 固定 形状 窗口 〈 又 称 池 化 窗口 ) 中 的 元 素 计 
算 输出 。 不 同 于 卷 积 层 里 计算 输入 和 核 的 互相 关 性 ， 池 化 层 直 接 计算 池 化 窗口 内 元 素 的 最 大 值 
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或 者 平均 值 。 该 运算 也 分 别 叫 作 最 大 池 化 或 平均 池 化 。 在 二 维 最 大 池 化 中 ， 池 化 窗口 从 输入 数 
组 的 最 左上 方 开始 ， 按 从 左 往 右 、 从 上 往 下 的 顺序 ， 依 次 在 输入 数组 上 滑动 。 当 池 化 窗口 滑动 
到 茶 一 位 置 时 ， 窗 口中 的 输入 子 数组 的 最 大 值 即 输出 数组 中 相应 位 置 的 元 素 。 


输出 





图 5-6 ” 池 化 窗口 形状 为 2 x 2 的 最 大 池 化 


5-6 展示 了 池 化 窗口 形状 为 2x2 的 最 大 池 化 ， 阴 影 部 分 为 第 一 个 输出 元 素 及 其 计算 所 使 
用 的 输入 元 素 。 输 出 数组 的 高 和 宽 分 别 为 2， 其 中 的 4 个 元 素 由 取 最 大 值 运 算 max 得 出 : 
max(0, 1, 3, 4) =4 
max(1, 2, 4,5) =5 
max(3, 4, 6,7) =7 
max(4, 5, 7,8) =8 
二 维 平均 池 化 的 工作 原理 与 二 维 最 大 池 化 类 似 ， 但 将 最 大 运算 符 蔡 换 成 平均 运算 符 。 池 化 
窗口 形状 为 pxg 的 池 化 层 称 为 pxg 池 化 层 ， 其 中 的 池 化 运算 叫 作 pxg 池 化 。 


让 我 们 再 次 回 到 本 节 开 始 提 到 的 物体 边缘 检测 的 例子 。 现 在 我 们 将 卷 积 层 的 输出 作为 2x2 
最 大 池 化 的 输入 。 设 该 卷 积 层 输 入 是 X、 池 化 层 输出 为 Y。 无 论 是 X[i, j] 和 X[i, j+l] 值 不 同 ， 
还 是 xX[i, j+1] A XLi, j+2] 不 同 ， 池 化 层 输出 均 有 Y[i, j]=1。 也 就 是 说 ， 使 用 2x2 最 大 池 化 
层 时 ， 只 要 卷 积 层 识别 的 模式 在 高 和 宽 上 移动 不 超过 一 个 元 素 ， 我 们 依然 可 以 将 它 检测 出 来 。 


下 面 把 池 化 层 的 前 癌 计 算 实 现在 pool2d 函数 里 。 它 与 5.1 节 里 corr2d 函数 非 第 类 似 ， 
唯一 的 区 别 在 计算 输出 Y 上 。 


In [1]: from mxnet import nd 
from mxnet.gluon import nn 
def pool2d(X, pool_size, mode='max'): 
p_h, p_w = pool_size 
Y = nd.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1)) 
for i in range(Y.shape[0]): 
for j in range(Y.shape[1]): 


if mode == 'max': 
Yli j] = Xfi: 7 + ph, j: j + p_w].max() 
elif mode == ‘avg': 


Vit, 3). =X[13..74.+. p_h, 43: 3. + p_w) .mean() 
return Y 
我 们 可 以 构造 图 5-6 中 的 输入 数组 x 来 验证 二 维 最 大 池 化 层 的 输出 。 


in Te 2nd UN (6.2. 2T, (3S. 4, Sy 16, 7. 8119 
pool2d(X, (2, 2)) 


54 池 化 层 。119，。 


Out[2]: 
lls 5.] 
AFT GA 
<NDArray 2x2 @cpu(0)> 


同时 我 们 实验 一 下 平均 池 化 层 。 


In [3]: pool2d(X, (2, 2), '‘avg') 


Out[3]: 
oe 
[ET 时 
<NDArray 2x2 @cpu(@)> 


5.4.2 ”填充 和 步 幅 


同 卷 积 层 一 样 ， 池 化 层 也 可 以 在 输入 的 高 和 宽 两 侧 的 填充 并 调整 窗口 的 移动 步 幅 来 改变 输 
出 形状 。 池 化 层 填 充 和 步 幅 与 卷 积 层 填充 和 步 幅 的 工作 机 制 一 样 。 我 们 将 通过 nn 模块 里 的 二 
维 最 大 池 化 层 MaxPootL2D 来 演示 池 化 层 填 充 和 步 幅 的 工作 机 制 。 我 们 先 构造 一 个 形状 为 (1, 1, 
4, 4) 的 输入 数据 ， 前 两 个 维度 分 别 是 批量 和 通道 。 


In [4]: X = nd.arange(16) .reshape((1， 1, 4, 4)) 
X 


Out[4]: 
Ee O22. “258s 3 
E eee eS eae 
E Ro ey be at) 
lags dos 24. 3500573 
<NDArray 1x1x4x4 @cpu(Q)> 


默认 情况 下 ，MaxPootL2D 实例 里 步 幅 和 池 化 窗口 形状 相同 。 下 面 使 用 形状 为 (3, 3) 的 池 化 
窗口 ， 默 认 获 得 形状 为 (3, 3) 的 步 幅 。 


In [5]: pool2d = nn.MaxPool2D(3) 
pool2d(X) # 因为 池 化 层 没有 模型 参数 ， 所 以 不 需要 调用 参数 初始 化 函数 


Out[5]: 
[CC[10.]]]] 
<NDArray 1x1x1x1 @cpu(0)> 
我 们 可 以 手动 指定 步 幅 和 填充 。 
In [6]: pool2d = nn.MaxPool2D(3, padding=1, strides=2) 
pool2d(X) 
Out[6]: 
ELLE 全 
L133 :9 H 


<NDArray 1x1x2x2 @cpu(0)> 
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当然 ， 我 们 也 可 以 指定 非 正 方形 的 池 化 窗口 ， 并 分 别 指定 高 和 宽 上 的 填充 和 步 幅 。 


In [7]: pool2d = nn.MaxPool2D((2, 3), padding=(1, 2), strides=(2, 3)) 


pool2d(X) 
Out[7]: 
ELLE 9. 3.] 
e 244 
[12 15: PETI 
<NDArray 1x1x3x2 @cpu(0)> 
5.4.3 ”多 通道 


在 处 理 多 通道 输入 数据 时 ， 池 化 层 对 每 个 输入 通道 分 别 池 化 ， 而 不 是 像 卷 积 层 那 样 将 各 通 
道 的 输入 按 通 道 相 加 。 这 意味 着 池 化 层 的 输出 通道 数 与 输入 通道 数 相等 。 下 面 我 们 将 数组 X 和 
X+1 在 通道 维 上 连结 来 构造 通道 数 为 2 的 输入 。 


In [8]: X = nd.concat(X, X + 1, dim=1) 
X 


Out[8]: 


ap ae Det: Hae 
Ss ey Te Sel 
L293 16.7114. 22, ] 
L13.. i440. 135...16411.)) 
<NDArray 1x2x4x4 @cpu(0)> 


池 化 后 ， 我 们 发 现 输出 通道 数 仍然 是 2。 


In [9]: pool2d = nn.MaxPool2D(3, padding=1, strides=2) 
pool2d(X) 


Out[9]: 
EELE 5. Tej 
[13. -15.}] 


A Gy el 
f14. 16: kkl] 
<NDArray 1x2x2x2 @cpu(0)> 


最 大 池 化 和 平均 池 化 分 别 取 池 化 窗口 中 输入 元 素 的 最 大 值 和 平均 值 作 为 输出 。 
池 化 层 的 一 个 主要 作用 是 缓解 卷 积 层 对 位 置 的 过 度 敏 感性 。 


可 以 指定 池 化 层 的 填充 和 步 幅 。 
池 化 层 的 输出 通道 数 与 输入 通道 数 相同 。 
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练习 
(1) 分 析 池 化 层 的 计算 复杂 度 。 假 设 输入 形状 为 cxhxw， 我 们 使 用 形状 为 ph x pw 的 池 化 窗口 ， 
mA (Pr Pw) 填充 和 (Sp, Sw) 步 幅 。 这 个 池 化 层 的 前 向 计算 复杂 度 有 多 大 ? 


(2) 想 一 想 ， 最 大 池 化 层 和 平均 池 化 层 在 作用 上 可 能 有 哪些 区 别 ? 
(3) 你 觉得 最 小 池 化 层 这 个 想法 有 没有 意义 ? 








扫 码 直达 讨论 区 


5.5 ” 卷 积 神经 网 络 ( LeNet ) 


在 3.9 节 里 我 们 构造 了 一 个 含 单 隐 藏 层 的 多 层 感 知 机 模型 来 对 Fashion- [m] 
MNIST 数据 集中 的 图 像 进行 分 类 。 每 张 图 像 高 和 宽 均 是 28 像素 。 我 们 将 
图 像 中 的 像素 逐 行 展开 ， 得 到 长 度 为 784 的 向 量 ， 并 输入 进 全 连接 层 中 。 
然而 ， 这 种 分 类 方法 有 一 定 的 局 限 性 。 [m] 


C1) 图 像 在 同一 列 邻 近 的 像素 在 这 个 向 量 中 可 能 相距 较 远 。 它 们 构成 的 模式 可 能 难以 被 模 
型 识别 。 

(2) 对 于 大 尺寸 的 输入 图 像 ， 使 用 全 连接 层 容易 造成 模型 过 大 。 假 设 输入 是 高 和 宽 均 为 
1 000 像素 的 彩色 照片 〈 含 3 个 通道 )。 即 使 全 连接 层 输 出 个 数 仍 是 2356， 该 层 权 重 参数 的 形状 是 
3 000 000 x256: 它 占 用 了 大 约 3 GB 的 内 存 或 显存 。 这 带 来 过 复杂 的 模型 和 过 高 的 存储 开销 。 


疮 积 层 符 试 解决 这 两 个 问题 。 一 方面 ， 卷 积 层 保留 输入 形状 ， 使 图 像 的 像素 在 高 和 宽 两 个 
方向 上 的 相关 性 均 可 能 被 有 效 识 别 ， 另 一 方面 ， 卷 积 层 通过 滑动 窗口 将 同一 卷 积 核 与 不 同位 置 
的 输入 重复 计算 ， 从 而 避免 参数 尺寸 过 大 。 


郑 积 神经 网 络 就 是 售 卷 积 层 的 网 络 。 本 节 里 我 们 将 介绍 一 个 早期 用 来 识别 手写 数字 图 像 的 
卷 积 神经 网 络 一 一 LeNet "。 这 个 名 字 来 源 于 LeNet 论文 的 第 一 作者 Yann LeCun。LeNet 展示 
了 通过 梯度 下 降 训 练 卷 积 神经 网 络 可 以 达到 手写 数字 识别 在 当时 最 先进 的 结果 。 这 个 真 基 性 的 
工作 第 一 次 将 卷 积 神经 网 络 推 上 舞台 ， 为 世人 所 知 。 






5.5.1 LeNet 模 型 
LeNet 分 为 人 稚 积 层 块 和 全 连接 层 块 两 个 部 分 。 下 面 我 们 分 别 介绍 这 两 个 模块 。 


卷 积 层 块 里 的 基本 单位 是 卷 积 层 后 接 最 大 池 化 层 : 卷 积 层 用 来 识别 图 像 里 的 空间 模式 ， 如 
线条 和 物体 局 部 ， 之 后 的 最 大 池 化 层 则 用 来 降低 卷 积 层 对 位 置 的 敏感 性 。 卷 积 层 块 由 两 个 这 样 
的 基本 单位 重复 挫 登 构成 。 在 卷 积 层 块 中 ， 每 个 卷 积 层 都 使 用 S$x5 的 窗口 ， 并 在 输出 上 使 用 
sigmoid 激活 函数 。 第 一 个 卷 积 层 输 出 通道 数 为 6， 第 二 个 卷 积 层 输出 通道 数 则 增加 到 16。 这 
是 因为 第 二 个 卷 积 层 比 第 一 个 卷 积 层 的 输入 的 高 和 宽 要 小 ， 所 以 增加 输出 通道 使 两 个 卷 积 层 的 
参数 尺寸 类 似 。 卷 积 层 块 的 两 个 最 大 池 化 层 的 窗口 形状 均 为 2x2， 且 步 幅 为 2。 由 于 池 化 窗口 
与 步 幅 形状 相同 ， 池 化 窗口 在 输入 上 每 次 滑动 所 履 盖 的 区 域 互 不 重 登 。 


卷 积 层 块 的 输出 形状 为 (批量 大 小 , 通道 , 高 , 宽 )。 当 卷 积 层 块 的 输出 传 入 全 连接 层 块 时 ， 
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全 连接 层 块 会 将 小 批量 中 


每 个 样本 变 平 〈flatten)。 也 就 是 说 ， 全 连接 层 的 输入 形状 将 变 成 二 


维 ， 其 中 第 一 维 是 小 批量 中 的 样本 ， 第 二 维 是 每 个 样本 变 平 后 的 向 量 表 示 ， 且 向 量 长 度 为 通 
道 、 高 和 宽 的 乘积 。 全 连接 层 块 含 3 个 全 连接 层 。 它 们 的 输出 个 数 分 别 是 120、84 和 10， 其 


中 10 为 输出 的 类 别 个 数 。 


下 面 我 们 通过 Sequential 类 来 实现 LeNet 模型 。 


In [1]: import d2lzh as d21 
import mxnet as mx 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import loss as gloss, nn 


import time 


net = nn.Sequential() 

net.add(nn.Conv2D(channels=6, kernel_size=5, activation='sigmoid'), 
nn.MaxPool2D(pool_size=2, strides=2), 
nn.Conv2D(channels=16, kernel_size=5, activation='sigmoid'), 
nn.MaxPool2D(pool_size=2, strides=2), 
# Dense 会 默认 将 (批量 大 小 ， 通 道 ， 高 ， 宽 ) 形 状 的 输入 转换 成 
# (批量 大 小 ， 通 道 x 高 * 宽 ) 形 状 的 输入 


nn.Dense(120, activation='sigmoid'), 


nn.Dense(84, activation='sigmoid'), 
nn.Dense(10) ) 


接 下 来 我 们 构造 一 个 高 和 宽 均 为 28 的 单 通道 数据 样本 ， 并 逐 层 进行 前 向 计算 来 查看 每 个 


层 的 输出 形状 。 


In [2]: X = nd.random.uniform(shape=(1, 1, 28, 28)) 
net. initialize() 、 
for layer in net: 
X = Layer (X) 
print(layer.name, ‘output shape:\t', X.shape) 


convO output shape: 
pool@ output shape: 
convl output shape: 
pooll output shape: 


denseO output shape: 
densel output shape: 
dense2 output shape: 


(1, 6, 24, 24) 
IIR 12, 423) 
(z,:.46, $; 8) 
(1, 16, 4, 4) 
(1, 120) 
(1, 84) 
(1, 10) 


可 以 看 到 ， 在 卷 积 层 块 中 输入 的 高 和 宽 在 逐 层 减 小 。 卷 积 层 由 于 使 用 高 和 宽 均 为 5 的 卷 积 
核 ， 从 而 将 高 和 宽 分 别 减 小 4， 而 池 化 层 则 将 高 和 宽 减 半 ， 但 通道 数 则 从 1 增加 到 16。 全 连接 
层 则 逐 层 减少 输出 个 数 ， 直 到 变 成 图 像 的 类 别 数 10. 


5.5.2 “训练 异型 


下 面 我 们 来 实验 LeNet 模型 。 实 验 中 ， 我 们 仍然 使 用 Fashion-MNIST 作为 训练 数据 集 。 


In [3]: batch_size 
train_iter, 


= 256 
test_iter = d2l.load_data_fashion_mnist(batch_size=batch_size) 
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因为 卷 积 神经 网 络 计 算 比 多 层 感知 机 要 复杂 ， 建 议 使 用 GPU 来 加 速 计算 。 我 们 尝试 在 
gpu(0) 上 创建 NDArray， 如 果 成 功 则 使 用 gpu(6)， 人 否则 仍然 使 用 CPU. 


In [4]: def try_gpu(): # 本 函数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
try: 
ctx = mx.gpu() 
_ = nd.zeros((1,), ctx=ctx) 
except mx.base.MXNetError: 
ctx = mx.cpu() 
return ctx 


ctx = try_gpu() 
ctx 


Out[4]: gpu(0) 


相应 地 ， 我 们 对 3.6 节 中 描述 的 evaluate_accuracy 函数 略 作 修 改 。 由 于 数据 刚 开始 存 
在 CPU 使 用 的 内 存 上 ， 当 ctx 变量 代表 GPU 及 相应 的 显存 时 ， 我 们 通过 4.6 节 中 介绍 的 as_ 
in_context 函数 将 数据 复制 到 显存 上 ， 例 如 gpu(9) 。 


In [5]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 。 该 函数 将 被 逐步 改进 : 它 的 完整 实现 将 在 9 .1 节 中 描述 
def evaluate_accuracy(data_iter, net, ctx): 
acc_sum, n = nd.array([0], ctx=ctx), 0 
for X, y in data_iter: 
# 如 果 ctx 代 表 GPU 及 相应 的 显存 ， 将 数据 复制 到 显存 上 
X, y = X.as_in_context(ctx), y.as_in_context(ctx).astype('float32') 
acc_sum += (net(X).argmax(axis=1) == y).sum() 
n += y.size 
return acc_sum.asscalar() / n 


我 们 同样 对 3.6 节 中 定义 的 train_ch3 函数 略 作 修改 ， 确 保 计 算 使 用 的 数据 和 模型 同 在 内 
存 或 显存 上 。 


In [6]: # 本 函数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
def train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) : 
print('training on', ctx) 
loss = gloss.SoftmaxCrossEntropyLoss() 
for epoch in range(num_epochs) : 
train_l_sum, train_acc_sum, n, start = 0.0, 0.0, 0, time.time() 
for X, y in train_iter: 
X, y = X.as_in_context(ctx), y.as_in_context (ctx) 
with autograd.record(): 
y_hat = net(X) 
tl = loss(y_hat, y).sum() 
Ll. backward ( ) 
trainer.step(batch_size) 
y = y.astype('float32') 
train_l_sum += l.asscalar() 
train_acc_sum += (y_hat.argmax(axis=1) == y).sum().asscalar() 
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n += y.size 
test_acc = evaluate_accuracy(test_iter, net, ctx) 
print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f, ' 
'time %.1f sec' 
% (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc, 
time.time() - start) ) 


我 们 重新 将 模型 参数 初始 化 到 设备 变量 ctx 之 上 ， 并 使 用 Xavier 随机 初始 化 。 损 失 函 数 
和 训练 算法 则 依然 使 用 交叉 炳 损失 函数 和 小 批量 随机 梯度 下 降 。 
In [7]: lr, num_epochs = 0.9, 5 
net.initialize(force_reinit=True, ctx=ctx, init=init.Xavier()) 


trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, num_epochs) 


training on gpu(0) 


epoch 1, loss 2.3205, train acc 0.100, test acc 0.174, time 1.9 sec 
epoch 2, loss 2.0349, train acc 0.215, test acc 0.505, time 1.7 sec 
epoch 3, loss 0.9928, train acc 0.605, test acc 0.689, time 1.7 sec 
epoch 4, loss 0.7733, train acc 0.700, test acc 0.731, time 1.7 sec 
epoch 5, loss 0.6794, train acc 0.731, test acc 0.755, time 1.7 sec 


小 结 
© 卷 积 神经 网 络 就 是 含 卷 积 层 的 网 络 。 
© LeNet 交替 使 用 卷 积 层 和 最 大 池 化 层 后 接 全 连接 层 来 进行 图 像 分 类 。 


练习 
尝试 基于 LeNet 构造 更 复杂 的 网 络 来 提高 分 类 准确 率 。 例 如 ， 调 整 卷 积 窗口 大 小 、 输 出 通道 数 、 激 
活 函 数 和 全 连接 层 输出 个 数 。 在 优化 方面 ， 可 以 尝试 使 用 不 同 的 学 习 率 、 初 始 化 方法 以 及 增加 人 迭代 周期 。 
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在 LeNet 提出 后 的 将 近 20 年 里 ， 神 经 网 络 一 度 被 其 他 机 器 学 习 方法 超 
越 ， 如 文 持 问 量 机 。 虽 然 LeNet 可 以 在 早期 的 小 数据 集 上 取得 好 的 成 绩 ， 
但 是 在 更 大 的 真实 数据 集 上 的 表现 并 不 尽 如 人 意 。 一 方面 ， 神 经 网 络 计 算 
复杂 。 虽 然 20 世纪 90 年 代 也 有 过 一 些 针对 神经 网 络 的 加 速 硬件 ， 但 并 没 
有 像 之 后 GPU 那样 大 量 普 有 及。 因此， 训练 一 个 多 通道 、 多 层 和 有 大 量 参数 
的 卷 积 神经 网 络 在 当年 很 难 完成 。 男 一 方面 ， 当 年 研究 者 还 没有 大 量 深入 研究 参数 初始 化 和 非 
凸 优化 算法 等 诸多 领域 ， 导 致 复杂 的 神经 网 络 的 训练 通常 较 困 难 。 

我 们 在 上 一 节 看 到 ， 神 经 网 络 可 以 直接 基于 图 像 的 原始 像素 进行 分 类 。 这 种 称 为 端 到 端 
(end-to-end) 的 方法 节省 了 很 多 中 间 步 又 。 然 而 ， 在 很 长 一 段 时 间 里 更 流行 的 是 研究 者 通过 勤 
夯 与 智 莫 设 计 并 生成 的 手工 特征 。 这 类 图 像 分 类 研究 的 主要 流程 是 ; 
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(1) 获取 图 像 数 据 集 ; 
(2) 使 用 己 有 的 特征 提取 函数 生成 图 像 的 特征 ; 
(3) 使 用 机 器 学 习 模 型 对 图 像 的 特征 分 类 。 


当时 认为 的 机 器 学 习 部 分 仅 限 最 后 这 一 步 。 如 果 那 时 候 跟 机 器 学 习 研 究 者 交谈 ， 他 们 会 认 
为 机 器 学 习 既 重要 又 优美 。 优 雅 的 定理 证 明了 许多 分 类 器 的 性 质 。 机 器 学 习 领 域 生 机 勃勃 、 严 
说 而 且 极 其 有 用 。 然 而 ， 如 果 跟 计算 机 视觉 研究 者 交谈 ， 则 是 男 外 一 幅 景 象 。 他 们 会 告诉 你 图 
像 识别 里 “不 可 告 人 ”的 现实 是 :计算 机 视觉 流程 中 真正 重要 的 是 数据 和 特征 。 也 就 是 说 ， 使 
用 较 干 净 的 数据 集 和 较 有 效 的 特征 甚至 比 机 器 学 习 模 型 的 选择 对 图 像 分 类 结果 的 影响 更 大 。 


5.6.1 学 习 特 征 表示 
既然 特征 如 此 重要 ， 它 该 如 何 表示 呢 ? 


我 们 已 经 提 到 ， 在 相当 长 的 时 间 里 ， 特 征 都 是 基于 各 式 各 样 手工 设计 的 函数 从 数据 中 提取 
的 。 事实 上 ， 不 少 研究 者 通过 提出 新 的 特征 提取 函数 不 断 改 进 图 像 分 类 结果 。 这 一 度 为 计算 机 
视觉 的 发 展 做 出 了 重要 贡献 。 


然而 ， 男 一 些 研究 者 则 持 异 议 。 他 们 认为 特征 本 和 喘 也 应 该 由 学 习 得 来 。 他 们 还 相信 ， 为 了 
表征 足够 复杂 的 输入 ， 特 征 本 身 应 该 分 级 表示 。 持 这 一 想法 的 研究 者 相信 ， 多 层 神 经 网 络 可 能 
可 以 学 得 数据 的 多 级 表征 ， 并 逐 级 表示 越 来 越 抽 象 的 概念 或 模式 。 以 图 像 分 类 为 例 ， 并 回忆 
5.1 节 中 物体 边缘 检测 的 例子 。 在 多 层 神 经 网 络 中 ， 图 像 的 第 一 级 的 表示 可 以 是 在 特定 的 位 置 
和 角度 是 否 出 现 边 缘 ; 而 第 二 级 的 表示 说 不 定 能 够 将 这 些 边缘 组 合 出 有 趣 的 模式 ， 如 花纹 ;在 
第 三 级 的 表示 中 ， 也 许 上 一 级 的 花纹 能 进一步 汇合 成 对 应 物体 特定 部 位 的 模式 。 这 样 逐 级 表示 
下 去 ， 最 终 ， 模 型 能 够 较 容 易 根 据 最 后 一 级 的 表示 完成 分 类 任务 。 需 要 强调 的 是 ， 输 入 的 逐 级 
表示 由 多 层 模 型 中 的 参数 决定 ， 而 这 些 参数 都 是 学 出 来 的 。 


尽 党 一 直 有 一 群 执 着 的 研究 者 不 断 钻 研 ， 试 图 学 习 视 觉 数 据 的 逐 级 表征 ， 然 而 很 长 一 段 时 
间 里 这 些 野 心 都 未 能 实现 。 这 其 中 有 诸多 因素 值得 我 们 一 一 分 析 。 


1. 缺失 要 素 一 : 数据 


包含 许多 特征 的 深度 模型 需要 大 量 的 有 标签 的 数据 才能 表现 得 比 其 他 经 典 方法 更 好 。 限 于 
早期 计算 机 有 限 的 存储 和 20 世 纪 90 年 代 有 限 的 研究 预算 ， 大 部 分 研究 只 基于 小 的 公开 数据 集 。 
例如 ， 不 少 研究 论文 基于 加 州 大 学 欧文 分 校 (UCI) 提供 的 若干 个 公开 数据 集 ， 其 中 许多 数据 
集 只 有 几 百 至 几 干 张 图 像 。 这 一 状况 在 2010 年 前 后 兴起 的 大 数据 浪潮 中 得 到 改善 。 特 别 是 ， 
2009 年 诞生 的 ImageNet 数据 集 包 含 了 1000 大 类 物体 ， 每 类 有 多 达 数 干 张 不 同 的 图 像 。 这 一 
规模 是 当时 其 他 公开 数据 集 无 法 与 之 相提并论 的 。ImageNet 数据 集 同时 推动 计算 机 视觉 和 机 
骼 学 习 研 究 进入 新 的 阶段 ， 使 此 前 的 传统 方法 不 再 有 优势 。 


2. 缺失 要 素 二 : 硬件 
深度 学 习 对 计算 资源 要 求 很 高 。 早 期 的 硬件 计算 能 力 有 限 ， 这 使 训练 较 复 杂 的 神经 网 络 变 得 
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很 困难 。 然 而 ， 通 用 GPU 的 到 来 改变 了 这 一 格局 。 很 久 以 来 ，GPU 都 是 为 图 像 处 理 和 计算 机 游戏 设 
计 的 ， 尤 其 是 针对 大 吞吐 量 的 矩阵 和 向 量 乘 法 ， 从 而 服务 于 基本 的 图 形变 换 。 值 得 庆幸 的 是 ， 这 其 
中 的 数学 表达 与 深度 网 络 中 的 卷 积 层 的 表达 类 似 。 通 用 GPU 这 个 概念 在 2001 年 开始 兴起 ， 涌 现 
出 诸如 OpenCL 和 CUDA 之 类 的 编程 框架 。 这 使 得 GPU 也 在 2010 年 前 后 开始 被 机 器 学 习 社 区 使 用 。 


5.6.2 AlexNet 


2012 年 AlexNet 横 空 出 世 。 这 个 模型 的 名 字 来 源 于 论文 第 一 作者 的 姓名 Alex Krizhevsky'”. 
AlexNet 使 用 了 8 层 卷 积 神经 网 络 ， 并 以 很 大 的 优势 赢得 了 ImageNet 2012 图 像 识 别 挑战 赛 。 它 
首次 证 明了 学 习 到 的 特征 可 以 超越 手工 设计 的 特征 ， 从 而 一 举 打破 计算 机 视觉 研究 的 前 状 。 


AlexNet 与 LeNet 的 设计 理念 非常 相似 ， 但 也 有 显著 的 区 别 。 


第 一 ， 与 相对 较 小 的 LeNet 相 比 ，AlexNet 包含 8 层 变 换 ， 其 中 有 5 层 卷 积 和 2 层 全 连接 
隐藏 层 ， 以 及 1 个 全 连接 输出 层 。 下 面 我 们 来 详细 摘 述 这 些 层 的 设计 。 


AlexNet 第 一 层 中 的 卷 积 窗口 形状 是 11 x 11。 因 为 ImageNet 中 绝 大 多 数 图 像 的 高 和 宽 均 比 
MNIST 图 像 的 高 和 宽大 10 倍 以 上 ，ImageNet 图 像 的 物体 占用 更 多 的 像素 ， 所 以 需要 更 大 的 卷 
积 窗口 来 捕获 物体 。 第 二 层 中 的 卷 积 窗口 形状 减 小 到 5x5， 之 后 全 采用 3x3。 此 外 ， 第 一 、 第 
二 和 第 五 个 卷 积 层 之 后 都 使 用 了 窗口 形状 为 3x3、 步 幅 为 2 的 最 大 池 化 层 。 而 且 ，AlexNet 使 
用 的 卷 积 通道 数 也 数 十 倍 于 LeNet 中 的 卷 积 通道 数 。 


紧 接 着 最 后 一 个 卷 积 层 的 是 两 个 输出 个 数 为 4 096 的 全 连接 层 。 这 两 个 巨大 的 全 连接 层 带 
来 将 近 1 GB 的 模型 参数 。 由 于 早期 显存 的 限制 ， 最 早 的 AlexNet 使 用 双 数 据 流 的 设计 使 一 块 
GPU 只 需要 处 理 一 半 模 型 。 竺 运 的 是 ， 显 存在 过 去 几 年 得 到 了 长 足 的 有 发展 ， 因 此 通 种 我 们 不 
再 需要 这 样 的 特别 设计 了 。 


第 二 ，AlexNet 将 sigmoid 激活 函数 改 成 了 更 加 简单 的 ReLU 激活 函数 。 一 方面 ，ReLU w 
活 函 数 的 计算 更 简单 ， 例 如 它 并 没有 sigmoid 激活 函数 中 的 求 井 运算 。 另 一 方面 ，ReLU 激活 
函数 在 不 同 的 参数 初始 化 方法 下 使 模型 更 容易 训练 。 这 是 由 于 当 sigmoid 激活 函数 输出 极 接 
近 0 或 1 时 ， 这 些 区 域 的 梯度 几乎 为 0， 从 而 造成 反 向 传播 无 法 继续 更 新 部 分 模型 参数 ， 而 
ReLU 激活 函数 在 正 区 间 的 梯度 恒 为 1。 因此， 大 模型 参数 初始 化 不 当 ，sigmoid 函数 可 能 在 正 
区 间 得 到 几乎 为 0 的 梯度 ， 从 而 令 模 型 无 法 得 到 有 效 训练 。 

第 三 ，AlexNet 通过 丢弃 法 (参见 3.13 节 ) 来 控制 全 连接 层 的 模型 复杂 度 。 而 LeNet 并 没 
有 使 用 丢弃 法 。 

第 四 ，AlexNet 引入 了 大 量 的 图 像 增 广 ， 如 翻转 、 裁 前 和 颜色 变化 ， 从 而 进一步 扩大 数据 
集 来 缓解 过 拟 合 。 我 们 将 在 后 面 的 9.1 节 详 细 介绍 这 种 方法 。 

下 面 我 们 实现 稍微 简化 过 的 AlexNet。 


In [1]: import d2Lzh as d2l 
from mxnet import gluon, init, nd 
from mxnet.gluon import data as gdata, nn 
import os 
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import sys 


net = nn.Sequential() 

# 使 用 较 大 的 11 x LIBS. PASSE RAISE) iret. IEEE ARATE 

# 道 数 比 LeNet 中 的 也 要 大 很 多 

net.add(nn.Conv2D(96, kernel_size=11, strides=4, activation='relu'), 
nn.MaxPool2D(pool_size=3, strides=2), 
# 减 小 卷 积 窗口 ， 使 用 填充 为 2 来 使 得 输入 与 输出 的 高 和 宽 一 致 ， 且 增 大 输出 通道 数 
nn.Conv2D(256, kernel_size=5, padding=2, activation='relu'), 
nn.MaxPool2D(pool_size=3, strides=2), 
# 连续 3 个 卷 积 层 ， 且 使 用 更 小 的 卷 积 窗口 。 除 了 最 后 的 卷 积 层 外 ， 进 一 步 增 大 了 输出 通道 数 。 
# 前 两 个 卷 积 层 后 不 使 用 池 化 层 来 减 小 输入 的 高 和 宽 
nn.Conv2D(384, kernel_size=3, padding=1, activation='relu'), 
nn.Conv2D(384, kernel_size=3, padding=1, activation='relu'), 
nn.Conv2D(256, kernel_size=3, padding=1, activation='relu'), 
nn.MaxPool2D(pool_size=3, strides=2), 
# 这 里 全 连接 层 的 输出 个 数 比 LeNet 中 的 大 数 倍 。 使 用 丢弃 层 来 缓解 过 拟 合 
nn.Dense(4096, activation="relu"), nn.Dropout(0.5), 
nn.Dense(4096, activation="relu"), nn.Dropout(0.5), 
# 输出 层 。 由 于 这 里 使 用 Fashion-MNIST， 所 以 用 类 别 数 为 19 ， 而 非 论文 中 的 1009 
nn.Dense(10)) 


我 们 构造 一 个 高 和 宽 均 为 224 的 单 通 道 数 据 样本 来 观察 每 一 层 的 输出 形状 。 


In [2]: X = nd.random.uniform(shape=(1, 1, 224, 224)) 
net. initialize() 
for layer in net: 
X = Layer(X) 
print(layer.name, ‘output shape:\t', X.shape) 


conv® output shape: (1, 96, 54, 54) 
poolO output shape: (1. 96, 26, 26) 
convl output shape: (1, 256; 26, 26) 
pooll output shape: (17 goer 22, 22) 
conv2 output shape: th. Sons. tes LA) 
conv3 output shape: Ci, S64, 12; 32) 
conv4 output shape: (Il, 256, 42, 42) 
pool2 output shape: a es 
denseO output shape: (1, 4096) 
dropout® output shape: (1, 4096) 

densel output shape: (1, 4096) 
dropoutl output shape: (1, 4096) 

dense2 output shape: (1, 10) 


5.6.3 读 取 数据 集 


虽然 论文 中 AlexNet 使 用 ImageNet 数据 集 ， 但 因为 ImageNet 数据 集训 练 时 间 较 长 ， 
我 们 仍 用 前 面 的 Fashion-MNIST 数据 集 来 演示 AlexNet。 读 取 数 据 的 时 候 我 们 额外 做 了 一 步 
将 图 像 高 和 宽 扩 大 到 AlexNet 使 用 的 图 像 高 和 宽 一 一 224。 这 个 可 以 通过 Resize 实例 来 实现 。 
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也 就 是 说 ， 我 们 在 ToTensor 实例 前 使 用 Resize 实例 ， 然 后 使 用 Compose 实例 来 将 这 两 个 
变换 串联 以 方便 调用 。 


In [3]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def load_data_fashion_mnist(batch_size, resize=None, root=os.path.join( 

'~', ' smxnet', 'datasets', 'fashion-mnist')): 

root = os.path.expanduser(root) # 展开 用 户 路 径 '~' 

transformer = [] 

if resize: 
transformer += [gdata.vision.transforms.Resize(resize) | 

transformer += [gdata.vision.transforms.ToTensor() ] 

transformer = gdata.vision.transforms.Compose(transformer ) 

mnist_train = gdata.vision.FashionMNIST(root=root, train=True) 

mnist_test = gdata.vision.FashionMNIST(root=root, train=False) 

num_workers = 0 if sys.platform.startswith('win32') else 4 

train_iter = gdata.DataLoader ( 
mnist_train.transform_first(transformer), batch_size, shuffle=True, 
num_workers=num_workers) 

test_iter = gdata.DataLoader ( 
mnist_test.transform_first(transformer), batch_size, shuffle=False, 
num_workers=num_workers) 

return train_iter, test_iter 


batch_size = 128 
# 如 出 现 “out of memory” 的 报错 信息 ， 可 减 小 batch_size 或 resize 
train_iter, test_iter = load_data_fashion_mnist(batch_size, resize=224) 


5.6.4 ”训练 模型 


这 时 候 我 们 可 以 开始 训练 AlexNet 了 。 相 对 于 5.5 节 的 LeNet， 这 里 的 主要 改动 是 使 用 了 
更 小 的 学 习 率 。 
In [4]: lr, num_epochs, ctx = 0.01, 5, d2l.try_gpu() 
net. initialize(force_reinit=True, ctx=ctx, init=init.Xavier()) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
d21.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, num_epochs) 





training on gpu(0) 

epoch 1, loss 1.3030, train acc 0.510, test acc 
epoch 2, loss 0.6450, train acc 0.759, test acc 
epoch 3, loss 0.5298, train acc 0.803, test acc 
epoch 4, loss 0.4664, train acc 0.828, test acc 


.767, time 18.5 sec 
.810, time 17.4 sec 
.831, time 17.4 sec 
.851, time 17.5 sec 
.867, time 17.3 sec 


oOo SED 


epoch 5, loss 0.4252, train acc 0.845, test acc 


AlexNet 4 LeNet 结构 类 似 ， 但 使 用 了 更 多 的 卷 积 层 和 更 大 的 参数 空间 来 拟 合 大 规模 数据 集 
ImageNet。 它 是 浅 层 神经 网 络 和 深度 神经 网 络 的 分 界线 。 


虽然 看 上 去 AlexNet 的 实现 比 LeNet 的 实现 也 就 多 了 几 行 代码 而 已 ， 但 这 个 观念 上 的 转变 和 
真正 优秀 实验 结果 的 产生 令 学 术 界 付出 了 很 多 年 。 
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练习 
(1) 尝试 增加 迭代 周期 。 跟 LeNet 的 结果 相 比 ，AlexNet 的 结果 有 什么 区 别 ? AHA? 
(2) AlexNet 对 Fashion-MNIST 数据 集 来 说 可 能 过 于 复杂 。 试 着 简化 模型 来 使 训练 更 快 ， 同 时 


保证 准确 率 不 明显 下 降 。 
(3) 修改 批量 大 小 ， 观 察 准 确 率 和 内 存 或 显存 的 变化 。 





5.7 ”使 用 重复 元 素 的 网 络 ( VGG ) 


AlexNet 在 LeNet 的 基础 上 增加 了 3 个 卷 积 层 。 但 AlexNet 作者 对 它们 [m]; [sl 
的 卷 积 窗口 、 输 出 通道 数 和 构造 顺序 均 做 了 大 量 的 调整 。 虽 然 AlexNet 指 
明了 深度 卷 积 神经 网 络 可 以 取得 出 色 的 结果 ， 但 并 没有 提供 简单 的 规则 以 
指导 后 来 的 研究 者 如 何 设计 新 的 网 络 。 我 们 将 在 本 章 的 后 续 几 节 里 介绍 几 
种 不 同 的 深度 网 络 设计 思路 。 


本 节 介 绍 VGG， 它 的 名 字 来 源 于 论文 作者 所 在 的 实验 室 Visual Geometry Group “ 。VGG 
提出 了 可 以 通过 重复 使 用 简单 的 基础 块 来 构建 深度 模型 的 思路 。 






5.7.1 VGGiR 


VGG 块 的 组 成 规律 是 : 连续 使 用 数 个 相同 的 填充 为 1、 窗口 形状 为 3x3 的 卷 积 层 后 接 上 
一 个 步 幅 为 2、 窗 口 形状 为 2x2 的 最 大 池 化 层 。 卷 积 层 保持 输入 的 高 和 宽 不 变 ， 而 池 化 层 则 
对 其 减 半 。 我 们 使 用 veg_block 函数 来 实现 这 个 基础 的 VGG 块 ， 它 可 以 指定 卷 积 层 的 数量 
num_convs 和 输出 通道 数 num_channels. 

In [1]: import d2lzh as d2l 


from mxnet import gluon, init, nd 
from mxnet.gluon import nn 


def vgg_block(num_convs, num_channels): 
blk = nn.Sequential() 
for _ in range(num_convs): 
blk.add(nn.Conv2D(num_channels, kernel_size=3, 
padding=1, activation='relu')) 
blk.add(nn.MaxPool2D(pool_size=2, strides=2) ) 
return blk 


5.7.2 VGG 网 络 


与 AlexNet 和 LeNet 一 样 ，VGG 网 络 由 卷 积 层 模块 后 接 全 连接 层 模 块 构成 。 卷 积 层 模块 
串联 数 个 vgg_block， 其 超 参 数 由 变量 conv_arch 定义 。 该 变量 指定 了 每 个 VGG 块 里 卷 积 层 
个 数 和 输出 通道 数 。 全 连接 模块 则 与 AlexNet 中 的 一 样 。 


°130° 第 5 章 卷 积 神经 网 络 


现在 我 们 构造 一 个 VGG 网 络 。 它 有 5 个 卷 积 块 ， 前 2 块 使 用 单 卷 积 层 ， 而 后 3 块 使 用 双 
卷 积 层 。 第 一 块 的 输出 通道 是 64， 之 后 每 次 对 输出 通道 数 翻 倍 ， 直 到 变 为 512。 因 为 这 个 网 络 
使 用 了 8 个 卷 积 层 和 3 个 全 连接 层 ， 所 以 经 律 被 称 为 VGG-11。 


In [2]: conviarch’= (C1, OAF; (1; 28); (2, 256), (2, S12)s' TORA) 


下 面 我 们 实现 VGG-11. 


In [3]: def vgg(conv_arch): 


net = nn.Sequential() 


# 卷 积 层 部 分 


for (num_convs, num_channels) in conv_arch: 


net.add(vgg_block(num_convs, num_channels) ) 


# 全 连接 层 部 分 


net.add(nn.Dense(4096, activation='relu'), nn.Dropout(0.5), 
nn.Dense(4096, activation='relu'), nn.Dropout(0.5), 
nn.Dense(10) ) 


return net 


net = vgg(conv_arch) 


下 面 构造 一 个 高 和 宽 均 为 224 的 单 通道 数据 样本 来 观察 每 一 层 的 输出 形状 。 


In [4]: net.initialize() 


X = nd.random.uniform(shape=(1, 1, 224, 224)) 


for blk in net: 
X = blk(X) 
print(blk.name, 


sequentiall output shape: 
sequential2 output shape: 
sequential3 output shape: 
sequential4 output shape: 
sequential5 output shape: 


denseO output shape: Cz 
dropout® output shape: CL; 
densel output shape: cis 
dropoutl output shape: (1. 
dense2 output shape: (i. 


‘output 


(1, 
(1, 
(1, 
(1, 
(1, 
4096) 
4096) 
4096) 
4096) 
10) 


shape:\t', X.shape) 


ed “Yig 257} 
128, 56, 36) 
256, 28, .28) 
512, 14, 14) 
512, 7,° 75 


可 以 看 到 ， 每 次 我 们 将 输入 的 高 和 宽 减 半 ， 直 到 最 终 高 和 宽 变 成 7 后 传 入 全 连接 层 。 与 此 
同时 ， 输 出 通道 数 每 次 翻 倍 ， 直 到 变 成 512。 因 为 每 个 卷 积 层 的 窗口 大 小 一 样 ， 所 以 每 层 的 模型 
参数 尺寸 和 计算 复杂 度 与 输入 高 、 输 入 宽 、 输 入 通道 数 和 输出 通道 数 的 乘积 成 正比 。VGG 这 种 
高 和 宽 减 半 以 及 通道 翻 倍 的 设计 使 多 数 卷 积 层 都 有 相同 的 模型 参数 矿 寸 和 计算 复杂 度 。 


O76 Ul 





练 模型 


因为 VGG-11 计算 上 比 AlexNet 更 加 复杂 ， 出 于 测试 的 目的 我 们 构造 一 个 通道 数 更 小 ， 或 
者 说 更 罕 的 网 络 在 Fashion-MNIST 数据 集 上 进行 训练 。 
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In [5]: ratio = 4 
small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch] 
net = vgg(small_conv_arch) 


除了 使 用 了 稍 大 些 的 学 习 率 ， 模 型 训练 过 程 与 5.6 节 的 AlexNet 中 的 类 似 。 


In [6]: lr, num_epochs, batch_size, ctx = 0.05, 5, 128, d2l.try_gpu() 
net. initialize(ctx=ctx, init=init.Xavier() ) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size, resize=224) 
d21l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) 


training on gpu(0) 


epoch 1, loss 0.9239, train acc 0.665, test acc 0.853, time 38.7 sec 
epoch 2, loss 0.4129, train acc 0.850, test acc 0.879, time 37.0 sec 
epoch 3, loss 0.3373, train acc 0.877, test acc 0.899, time 37.0 sec 
epoch 4, loss 0.2937, train acc 0.892, test acc 0.906, time 37.0 sec 
epoch 5, loss 0.2640, train acc 0.903, test acc 0.912, time 37.0 sec 


小 结 
© VGG-11 通过 5 个 可 以 重复 使 用 的 卷 积 块 来 构造 网 络 。 根 据 每 块 里 卷 积 层 个 数 和 输出 通道 数 
的 不 同 可 以 定义 出 不 同 的 VGG 模型 。 


练习 
(1) & AlexNet 相 比 ，VGG 通常 计算 慢 很 多 ， 也 需要 更 多 的 内 存 或 显存 。 试 分 析 原 因 。 
(2) 尝试 将 Fashion-MNIST 中 图 像 的 高 和 宽 由 224 改 为 96。 这 在 实验 中 有 哪些 影响 ? 
(3) RF VGG 论文 里 的 表 1 来 构造 VGG 其 他 常用 模型 ， 如 VGG-16 和 VGG-19 ™. 










5.8 ”网络 中 的 网 络 ( NiN ) 


5.5 节 至 5.7 节 介 绍 的 LeNet、AlexNet 和 VGG 在 设计 上 的 共同 之 处 是 : 
先 以 由 卷 积 层 构成 的 模块 充分 抽取 空间 特征 ， 再 以 由 全 连接 层 构成 的 模块 
来 输出 分 类 结果 。 其 中 ，AlexNet 和 VGG 对 LeNet 的 改进 主要 在 于 如 何 
对 这 两 个 模块 加 宽 ( 增 加 通道 数 ) 和 加 深 。 本 节 我 们 介绍 网 络 中 的 网 络 Er 
(NiN)“ 。 它 提出 了 另外 一 个 思路 ， 即 串联 多 个 由 卷 积 层 和 “全 连接 ” 层 构 成 的 小 网 络 来 构 
建 一 个 深层 网 络 。 


5.8.1 NiN 块 


我 们 知道 ， 卷 积 层 的 输入 和 输出 通 第 是 四 维 数组 (样本 , 通道, 高, 宽 )， 而 全 连接 层 的 输 
入 和 输出 则 通常 是 二 维 数组 (样本 ,特征 )。 如 果 想 在 全 连接 层 后 册 接 上 卷 积 层 ， 则 需要 将 全 连 
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接 层 的 输出 变换 为 四 维 。 回 忆 在 5.3 节 里 介绍 的 1 x1 卷 积 层 。 它 可 以 看 成 全 连接 层 ， 其 中 空间 
维度 〈 高 和 宽 ) 上 的 每 个 元 素 相 当 于 样本 ， 通 道 相 当 于 特征 。 因 此 ，NiN 使 用 1 x 1 卷 积 层 来 
蔡 代 全 连接 层 ， 从 而 使 空间 信息 能 够 目 然 传递 到 后 面 的 层 中 去 。 图 5-7 对 比 了 NIN 同 AlexNet 
和 VGG 等 网 络 在 结构 上 的 主要 区 别 。 





图 5-7 左 图 是 AlexNet 和 VGG 的 网 络 结构 局 部 ， 右 图 是 NIN 的 网 络 结构 局 部 


NIN 块 是 NIN 中 的 基础 块 。 它 由 一 个 卷 积 层 加 两 个 充当 全 连接 层 的 1 x 1 卷 积 层 串联 而 成 。 
其 中 第 一 个 卷 积 层 的 超 参 数 可 以 目 行 设置 ， 而 第 二 和 第 三 个 卷 积 层 的 超 参数 一 般 是 固定 的 。 
In [1]: import d2Lzh as d2l 


from mxnet import gluon, init, nd 
from mxnet.gluon import nn 


def nin_block(num_channels, kernel_size, strides, padding): 
blk = nn.Sequential() 
blk.add(nn.Conv2D(num_channels, kernel_size, 
strides, padding, activation='relu'), 
nn.Conv2D(num_channels, kernel_size=1, activation='relu'), 
nn.Conv2D(num_channels, kernel_size=1, activation='relu')) 
return blk 


5.8.2 NiN 模 型 


NIN 是 在 AlexNet 问世 不 久 后 提出 的 。 它 们 的 卷 积 层 设 定 有 类 似 之 处 。NiN 使 用 卷 积 窗口 
形状 分 别 为 11 x11、5 x5 和 3x3 的 卷 积 层 ， 相 应 的 输出 通道 数 也 与 AlexNet 中 的 一 致 。 每 个 
NIN 块 后 接 一 个 步 幅 为 2、 窗 口 形状 为 3x3 的 最 大 池 化 层 。 


除 使 用 NiN 块 以 外 ，NiN 还 有 一 个 设计 与 AlexNet 显著 不 同 : NiN 去 掉 了 AlexNet 最 后 的 
3 个 全 连接 层 ， 取 而 代 之 地 ，NiN 使 用 了 输出 通道 数 等 于 标签 类 别 数 的 NiN 块 ， 然 后 使 用 全 局 
平均 池 化 层 对 每 个 通道 中 所 有 元 素 求 平均 并 直接 用 于 分 类 。 这 里 的 全 局 平均 池 化 层 即 窗口 形状 
等 于 输入 空间 维 形状 的 平均 池 化 层 。NiN 的 这 个 设计 的 好 处 是 可 以 显著 减 小 模型 参数 尺寸 ， 从 
而 缓解 过 拟 合 。 然 而 ， 该 设计 有 时 会 造成 获得 有 效 模型 的 训练 时 间 的 增加 。 


In [2]: net = nn.Sequential() 
net.add(nin_block(96, kernel_size=1l, strides=4, padding=0) , 
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nn.MaxPool2D(pool_size=3, strides=2), 

nin_block(256, kernel_size=5, strides=1, padding=2), 
nn.MaxPool2D(pool_size=3, strides=2), 

nin_block(384, kernel_size=3, strides=1, padding=1), 
nn.MaxPool2D(pool_size=3, strides=2), nn.Dropout(0.5), 
# 标签 类 别 数 是 10 

nin_block(10, kernel_size=3, strides=1, padding=1), 
# 全 局 平均 池 化 层 将 窗口 形状 自动 设置 成 输入 的 高 和 宽 
nn.GlobalAvgPool2D(),， 

# 将 四 维 的 输出 转 成 二 维 的 输出 ， 其 形状 为 (批量 大 小 ，19) 
nn.Flatten() ) 


我 们 构建 一 个 数据 样本 来 得 看 每 一 层 的 输出 形状 。 


In [3]: X = nd.random.uniform(shape=(1, 1, 224, 224)) 
net. initialize() 
for layer in net: 
X = Layer (X) 
print(layer.name, 'output shape:\t', X.shape) 
sequentiall output shape: (1, 96, 54, 54) 
poolO output shape: (1, 96, 26, 26) 
sequential2 output shape: (1,. 256, 26). 26) 
pooll output shape: (ly, wee, 12 32) 
sequential3 output shape: CL; 364.5432), 32) 
pool2 output shape: (35.5384 -5,~ 5) 
dropout® output shape: (1, 384, 5, 5) 
sequential4 output shape: 2. £0. Ss BS) 
pool3 output shape: Ci e TE S 


flattenO output shape: (1, 10) 


5.8.3 训练 模型 
我 们 依然 使 用 Fashion-MNIST 数据 集 来 训练 模型 。NiN 的 训练 与 AlexNet 和 VGG 的 类 似 ， 


但 这 里 使 用 的 学 习 率 更 大 。 
In [4]: lr, num_epochs, batch_size, ctx = 0.1, 5, 128, d2l.try_gpu() 


net.initialize(force_reinit=True, ctx=ctx, init=init.Xavier()) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate' 


0 9 


t tFF) 


train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size, resize=224) 


d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) 


training on gpu(0) 

epoch 1, loss 2.2635, train acc 0.153, test acc 0.147, time 24.6 sec 
epoch 2, loss 1.3903, train acc 0.499, test acc 0.699, time 23.5 sec 
epoch 3, loss 0.8132, train acc 0.707, test acc 0.737, time 23.4 sec 
epoch 4, loss 0.6420, train acc 0.765, test acc 0.798, time 23.5 sec 
epoch 5, loss 0.5659, train acc 0.795, test acc 0.817, time 23.4 sec 
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NIN 重复 使 用 由 卷 积 层 和 代替 全 连接 层 的 1 x 1 卷 积 层 构 成 的 NiN 块 来 构建 深层 网 络 。 

NIN 去 除了 容易 造成 过 拟 合 的 全 连接 输出 层 ， 而 是 将 其 替换 成 输出 通道 数 等 于 标签 类 别 数 的 
NIN 块 和 全 局 平均 池 化 层 。 

NiN 的 以 上 设计 思想 影响 了 后 面 一 系列 卷 积 神经 网 络 的 设计 。 


练习 
(1) 调节 超 参 数 ， 提 高 分 类 准确 率 。 
(2) 为 什么 NiN 块 里 要 有 两 个 1 x 1 卷 积 层 ? 去 除 其 中 的 一 个 ， 观 察 并 分 析 实 验 现象 。 





5.9 ” 含 并 行 连结 的 网 络 ( GoogLeNet ) 

在 2014 年 的 ImageNet 图 像 识 别 挑战 赛 中 ， 一 个 名 叫 GoogLeNet 的 网 Ei BAS. 
络 结构 大 放 异 彩 "“。 它 虽然 在 名 字 上 向 LeNet 致敬 ， 但 在 网 络 结构 上 已 经 : 
很 难看 到 LeNet 的 影子 。GoogLeNet 吸收 了 NIN 中 网 络 串联 网 络 的 思想 ， 
并 在 此 基础 上 做 了 很 大 改进 。 在 随后 的 几 年 里 ， 研 究 人 员 对 GoogLeNet 进 
行 了 数 次 改进 ， 本 节 将 介绍 这 个 模型 系列 的 第 一 个 版 本 。 





5.9.1 Inception 块 


GoogLeNet 中 的 基础 卷 积 块 叫 作 Inception 块 ， 得 名 于 同名 电影 《 盗 梦 空 间 》(Inception )。 
与 上 一 节 介 绍 的 NiN 块 相 比 ， 这 个 基础 块 在 结构 上 更 加 复杂 ， 如 图 5-8 所 示 。 


5-8 ”Inception 块 的 结构 


由 图 5-8 可 以 看 出 ，Inception KEA 4 条 并 行 的 线路 。 前 3 条 线路 使 用 窗口 大 小 分 别 是 
1x1、3x3 和 5x5 的 卷 积 层 来 抽取 不 同 空间 尺寸 下 的 信息 ， 其 中 中 间 2 个 线路 会 对 输入 先 做 
1 x 1 卷 积 来 减少 输入 通道 数 ， 以 降低 模型 复杂 度 。 第 四 条 线路 则 使 用 3 x3 最 大 池 化 层 ， 后 接 
1 x 1 卷 积 层 来 改变 通道 数 。4 条 线路 都 使 用 了 合适 的 填充 来 使 输入 与 输出 的 高 和 宽 一 致 。 最 后 
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我 们 将 每 条 线路 的 输出 在 通道 维 上 连结 ， 并 输入 接 下 来 的 层 中 去 。 
Inception 块 中 可 以 自 定 义 的 超 参数 是 每 个 层 的 输出 通道 数 ， 我 们 以 此 来 控制 模型 复杂 度 。 


In [1]: import d2Lzh as d2l 
from mxnet import gluon, init, nd 
from mxnet.gluon import nn 


class Inception(nn.Block): 
# cl - c4 为 每 条 线路 里 的 层 的 输出 通道 数 
def init__(self, ci, c2, c3, c4, **xkwargs): 
super (Inception, self).__init__(**kwargs) 
# 22781, 1 x 1 卷 积 层 
self.p1_1 = nn.Conv2D(cl, kernel_size=1, activation='relu') 
# 线路 2，1 x 1 卷 积 层 后 接 3 x 3 卷 积 层 
self.p2_1 = nn.Conv2D(c2[0], kernel_size=1, activation='relu') 
self.p2_2 = nn.Conv2D(c2[1], kernel_size=3, padding=1, 
activation='relu') 
# 线路 3 ，1 x 1 卷 积 层 后 接 5 x SERRE 
self.p3_1 = nn.Conv2D(c3[0], kernel_size=1, activation='relu'). 
self.p3_2 = nn.Conv2D(c3[1], kernel_size=5, padding=2, 
` activation='relu') 
# 线路 4，3 x 3 最 大 池 化 层 后 接 1 x 1 卷 积 层 
self.p4_1 = nn.MaxPool2D(pool_size=3, strides=1, padding=1) 
self.p4_2 = nn.Conv2D(c4, kernel_size=1, activation='relu') 


def forward(self, x): 
pl = self.p1_1(x) 
p2 = self.p2_2(self.p2_1(x)) 
p3 = self.p3_2(self.p3_1(x)) 
p4 = self.p4_2(self.p4_1(x)) 
return nd.concat(pl, p2, p3, p4, dim=1) # 在 通道 维 上 连结 输出 


5.9.2 GoogLeNet 模 型 


GoogLeNet 跟 VGG 一 样 ， 在 主体 卷 积 部 分 中 使 用 S 个 模块 〈block) ， 每 个 模块 之 间 使 用 
步 幅 为 2 的 3x3 最 大 池 化 层 来 减 小 输出 高 宽 。 第 一 模块 使 用 一 个 64 通道 的 7x7 卷 积 层 。 
In [2]: bl = nn.Sequential() 


b1.add(nn.Conv2D(64, kernel_size=7, strides=2, padding=3, activation='relu'), 
nn.MaxPool2D(pool_size=3, strides=2, padding=1) ) 


第 二 模块 使 用 2 个 卷 积 层 : 首先 是 64 通道 的 1 x 1 卷 积 层 ， 然 后 是 将 通道 增 大 3 倍 的 3x3 
卷 积 层 。 它 对 应 Inception 块 中 的 第 二 条 线路 。 


In [3]: b2 = nn.Sequential() 
b2.add(nn.Conv2D(64, kernel_size=1, activation='relu'), 
nn.Conv2D(192, kernel_size=3, padding=1, activation='relu'), 
nn.MaxPool2D(pool_size=3, strides=2, padding=1) ) 
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第 三 模块 串联 2 个 完整 的 Inception 块 。 第 一 个 Inception 块 的 输出 通道 数 为 64 + 128 + 
32+32=256， 其 中 4 条 线路 的 输出 通道 数 比例 为 64 : 128 : 32 : 32=2:4:1:1。 其 中 第 二 、 第 
三 条 线路 先 分 别 将 输入 通道 数 减 小 至 96/192 = 1/2 和 16/192 = 1/12 后 ， 再 接 上 第 二 层 卷 积 层 。 
第 二 个 Inception 块 输出 通道 数 增 至 128 + 192 + 96+ 64=480， 每 条 线路 的 输出 通道 数 之 比 
为 128 : 192 : 96 :64=4:6:3:2。 其 中 第 二 、 第 三 条 线路 先 分 别 将 输入 通道 数 减 小 至 128/256 = 
1/2 和 32/256 = 1/8. 

In [4]: b3 = nn.Sequential() 

b3.add(Inception(64, (96, 128), (16, 32), 32), 


Inception(128, (128, 192), (32, 96), 64), 
nn.MaxPool2D(pool_size=3, strides=2, padding=1) ) 


第 四 模块 更 加 复杂 。 它 串联 了 5 个 Inception 块 ， 其 输出 通道 数 分 别 是 192 + 208 + 48 + 
64=512, 160 +224 + 64+64=512, 128 +25S6+64+64=5S$12、112+288+64+64=5S$28 和 
256+320+128+128=832。 这 些 线路 的 通道 数 分 配 和 第 三 模块 中 的 类 似 ， 首 先是 含 3 x 3 卷 积 
层 的 第 二 条 线路 输出 最 多 通道 ， 其 次 是 仅 含 1 x 1 卷 积 层 的 第 一 条 线路 ， 之 后 是 含 5x5 卷 积 层 
的 第 三 条 线路 和 含 3x3 最 大 池 化 层 的 第 四 条 线路 。 其 中 第 二 、 第 三 条 线路 都 会 先 按 比例 减 小 
通道 数 。 这 些 比 例 在 各 个 Inception 块 中 都 略 有 不 同 。 

In [5]: b4 = nn.Sequential() 

b4.add(Inception(192, (96, 208), (16, 48), 64), 
Inception(160, (112, 224), (24, 64), 64), 
Inception(128, (128, 256), (24, 64), 64), 
Inception(112, (144, 288), (32, 64), 64), 


Inception(256, (160, 320), (32, 128), 128), 
nn.MaxPool2D(pool_size=3, strides=2, padding=1) ) 


第 五 模块 有 输出 通道 数 为 236+320+128+128=832 Fil 384 + 384 + 128 + 128 = 1024 的 两 
个 Inception 块 。 其 中 每 条 线路 的 通道 数 的 分 配 思 路 和 第 三 、 第 四 模块 中 的 一 致 ， 只 是 在 具体 
数值 上 有 所 不 同 。 需 要 注意 的 是 ， 第 五 模块 的 后 面 案 跟 输出 层 ， 该 模块 同 NiN 一 样 使 用 全 局 
平均 池 化 层 来 将 每 个 通道 的 高 和 宽 变 成 1。 最 后 我 们 将 输出 变 成 二 维 数组 后 接 上 一 个 输出 个 数 
为 标签 类 别 数 的 全 连接 层 。 
In [6]: b5 = nn.Sequential() 
b5.add(Inception(256, (160, 320), (32, 128), 128), 


Inception(384, (192, 384), (48, 128), 128), 
nn.GlobalAvgPool2D() ) 


net = nn.Sequential() 
net.add(bl1, b2, b3, b4, b5, nn.Dense(10) ) 


GoogLeNet 模型 的 计算 复杂 ， 而 且 不 如 VGG 那样 便于 修改 通道 数 。 本 节 里 我 们 将 输入 的 
高 和 宽 从 224 降 到 96 来 简化 计算 。 下 面 演示 各 个 模块 之 间 的 输出 的 形状 变化 。 


In [7]: X = nd.random.uniform(shape=(1, 1, 96, 96)) 
net.initialize() 
for layer in net: 
X = lLayer(X) 
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print(layer.name, ‘output shape:\t', X.shape) 


sequentialO output shape: (1, 64, 24, 24) 
sequentiall output shape: (i, 182,.225 22) 
sequential2 output shape: (1, 480, 6, 6) 
sequential3 output shape: (7.5 832 ,-3, 3) 
sequential4 output shape: ti, cOee,. Lyd) 
denseO output shape: (1, 10) 


5.9.3 ”训练 模型 


我 们 使 用 高 和 宽 均 为 96 像素 的 图 像 来 训练 GoogLeNet 模型 。 训 练 使 用 的 图 像 依 然 来 自 
Fashion-MNIST 数据 集 。 


In [8]: lr, num_epochs, batch_size, ctx = 0.1, 5, 128, d2l.try_gpu() 
net. initialize(force_reinit=True, ctx=ctx, init=init.Xavier()) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96) 
d21l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) 


training on gpu(0) 

epoch 1, loss 1.7187, train acc 0.357, test acc 0.727, time 27.1 sec 
epoch 2, loss 0.5887, train acc 0.780, test acc 0.830, time 23.8 sec 
epoch 3, loss 0.4362, train acc 0.835, test acc 0.862, time 23.5 sec 
epoch 4, loss 0.3698, train acc 0.860, test acc 0.868, time 23.5 sec 
epoch 5, loss 0.3336, train acc 0.874, test acc 0.885, time 23.7 sec 


Inception 块 相当 于 一 个 有 4 条 线路 的 子 网 络 。 它 通过 不 同窗 口 形状 的 卷 积 层 和 最 大 池 化 层 来 
并 行 抽 取信 息 ， 并 使 用 1 x 1 卷 积 层 减 少 通道 数 从 而 降低 模型 复杂 度 。 

GoogLeNet 将 多 个 设计 精细 的 Inception 块 和 其 他 层 串 联 起 来 。 其 中 Inception 块 的 通道 数 分 
配 之 比 是 在 ImageNet 数据 集 上 通过 大 量 的 实验 得 来 的 。 

GoogLeNet 和 它 的 后 继 者 们 一 度 是 ImageNet 上 最 高 效 的 模型 之 一 : 在 类 似 的 测试 精度 下 ， 
它们 的 计算 复杂 度 往往 更 低 。 


练习 
(1) GoogLeNet 有 数 个 后 续 版 本 。 尝 试 实现 并 运行 它们 ， 然 后 观察 实验 结果 。 这 些 后 续 版 本 包括 加 
入 批量 归 一 化 层 (5.10 节 将 介绍 ) 四、 对 Inception 块 做 调整 四 和 加 入 残 差 连接 (5.11 节 将 介绍 ) ™, 
(2) 对 比 AlexNet、VGG 和 NiN、GoogLeNet 的 模型 参数 尺寸 。 为 什么 后 两 个 网 络 可 以 显著 减 
小 模型 参数 尺寸 ? 
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5.10 ”批量 归 一 化 


本 节 我 们 介绍 批量 归 一 化 〈batch normalization) 层 ， 它 能 





通常 来 说 ， 数 据 标准 化 预 处 理 对 于 浅 层 模型 就 足够 有 效 了 。 随 着 模型 训练 的 进行 ， 当 每 层 
中 参数 更 新 时 ， 靠 近 输 出 层 的 输出 较 难 出 现 剧 烈 变 化 。 但 对 深层 神经 网 络 来 说 ， 即 使 输入 数据 
己 做 标准 化 ， 训 练 中 模型 参数 的 更 新 依然 很 容易 造成 靠近 输出 层 输出 的 剧烈 变化 。 这 种 计算 数 
值 的 不 稳定 性 通常 令 我 们 难以 训练 出 有 效 的 深度 模型 。 

批量 归 一 化 的 提出 正 是 为 了 应 对 深度 模型 训练 的 挑战 。 在 模型 训练 时 ， 批 量 归 一 化 利用 小 批 
量 上 的 均值 和 标准 差 ， 不 断 调整 神经 网 络 中 间 输 出 ， 从 而 使 整个 神经 网 络 在 各 层 的 中 间 输 出 的 数 
值 更 稳定 。 批 量 归 一 化 和 5.11 节 将 要 介绍 的 残 差 网 络 为 训练 和 设计 深度 模型 提供 了 两 类 重要 思路 。 


5.10.1 批量 归 一 化 层 


对 全 连接 层 和 卷 积 层 做 批量 归 一 化 的 方法 稍 有 不 同 。 下 面 我 们 将 分 别 介绍 这 两 种 情况 下 的 
批量 归 一 化 。 


1. 对 全 连接 层 做 批量 归 一 化 

我 们 先 考 虑 如 何 对 全 连接 层 做 批量 归 一 化 。 通 常 ， 我 们 将 批量 归 一 化 层 置 于 全 连接 层 中 的 
仿 射 变换 和 激活 函数 之 间 。 设 全 连接 层 的 输入 为 &w， 权 重 参数 和 偏差 参数 分 别 为 玉 和 2， 激活 
函数 为 Gp。 设 批量 归 一 化 的 运算 符 为 BN。 那 么 ， 使 用 批量 归 一 化 的 全 连接 层 的 输出 为 


¢(BN(x)) 
其 中 批量 归 一 化 输入 x 由 仿 射 变换 


x= Wu+b 
得 到 。 考 虑 一 个 由 m 个 样本 组 成 的 小 批量 ， 仿 射 变换 的 输出 为 一 个 新 的 小 批量 B = x, e h 
它们 正 是 批量 归 一 化 层 的 输入 。 对 于 小 批量 B 中 任意 样本 x 中 e R* ,1 三 i m， 批 量 归 一 化 层 
的 输出 同样 是 4 维 回 量 


y? Lf BN(x“) 
并 由 以 下 几 步 求 得 。 首先， 对 小 批量 召 求 均值 和 方差 : 
Lyd vo 
Hp < P Fy 


loo. Gg 
o; cD ) — ug) 


i=] 
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其 中 的 平方 计算 是 按 元 素 求 平方 。 接 下 来 ， 使 用 按 元 素 开 方 和 按 元 素 除法 对 x 中 标准化: 


4 — Hp 
这 里 e> 0 是 一 个 很 小 的 常数 ， 保 证 分 母 大 于 0。 在 上 面 标准 化 的 基础 上 ， 批 量 归 一 化 层 引 入 了 
两 个 可 以 学 习 的 模型 参数 ， 拉 伸 (scale) 参数 y 和 偏 移 (shit) 参数 6。 这 两 个 参数 和 x 形状 
HEL EJ d 维 向 量 。 它 们 与 x 分 别 做 按 元 素 乘 法 〈 符 号 O) 和 加 法 计算 : 
y eyo” +B 

至 此 ， 我 们 得 到 了 xO 的 批量 归 一 化 的 输出 y”。 值 得 注意 的 是 ， 可 学 习 的 拉 伸 和 偏 移 参 
数 保留 了 不 对 x 中 做 批量 归 一 化 的 可 能 ， 此 时 只 需 学 出 y= oz te 和 B= ugs RATEI ART IEX 
样 理 解 : 如 果 批 量 归 一 化 无 益 ， 理 论 上 讲 ， 学 出 的 模型 可 以 不 使 用 批量 归 一 化 。 


Ve 


2. 对 卷 积 层 做 批量 归 一 化 


对 卷 积 层 来 说 ， 批 量 归 一 化 发 生 在 卷 积 计算 之 后 、 应 用 激活 函数 之 前 。 如 果 卷 积 计算 输出 
多 个 通道 ， 我 们 需要 对 这 些 通道 的 输出 分 别 做 批量 归 一 化 ， 且 每 个 通道 都 拥有 独立 的 拉 伸 和 偶 
移 参 数 ， 并 均 为 标量 。 设 小 批量 中 有 m 个 样本 。 在 单个 通道 上 ， 假 设 卷 积 计算 输出 的 高 和 宽 
分 别 为 p 和 gq。 我 们 需要 对 该 通道 中 mx px gq 个 元 素 同 时 做 批量 归 一 化 。 对 这 些 元 素 做 标准 化 
计算 时 ， 我 们 使 用 相同 的 均值 和 方 秦 ， 即 该 通道 中 mx pxg 个 元 素 的 均值 和 方差 。 


3. 预测 时 的 批量 归 一 化 


使 用 批量 归 一 化 训练 时 ， 我 们 可 以 将 批量 大 小 设 得 大 一 点 ， 从 而 使 批量 内 样本 的 均值 和 方差 
的 计算 都 较为 准确 。 将 训练 好 的 模型 用 于 预测 时 ， 我 们 希望 模型 对 于 任意 输入 都 有 确定 的 输出 。 
因此 ， 单 个 样本 的 输出 不 应 取决 于 批量 归 一 化 所 需要 的 随机 小 批量 中 的 均值 和 方差 。 一 种 常用 的 
方法 是 通过 移动 平均 估算 整个 训练 数据 集 的 样本 均值 和 方差 ， 并 在 预测 时 使 用 它们 得 到 确定 的 
输出 。 可 见 ， 和 丢弃 层 一 样 ， 批 量 归 一 化 层 在 训练 模式 和 预测 模式 下 的 计算 结果 也 是 不 一 样 的 。 


5.10.2 ”从 零 开 始 实现 
下 面 我 们 通过 NDArray 来 实现 批量 归 一 化 层 。 


In [1]: import d2Lzh as d21 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import nn 


def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum) : 
# 通过 autograd 来 判断 当前 模式 是 训练 模式 还 是 预测 模式 
if not autograd.is_training(): 
# 如 果 是 在 预测 模式 下 ， 直 接 使 用 传 入 的 移动 平均 所 得 的 均值 和 方差 
X_hat = (X - moving_mean) / nd.sqrt(moving_var + eps) 
else: 
assert len(X.shape) in (2, 4) 
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if len(X.shape) == 2: 
# 使 用 全 连接 层 的 情况 ， 计 算 特征 维 上 的 均值 和 方差 
mean = X.mean(axis=0) 
var = ((X - mean) ** 2).mean(axis=0) 
else: 
# 使 用 二 维 卷 积 层 的 情 见 ， 计 算 通道 维 上 (axis=1) 的 均值 和 方差 。 这 里 我 们 需要 保持 
# X 的 形状 以 便 后 面 可 以 做 广播 运算 
mean = X.mean(axis=(0, 2, 3), keepdims=True) 
var = ((X - mean) xx 2).mean(axis=(0, 2, 3), keepdims=True) 
# 训练 模式 下 用 当前 的 均值 和 方差 做 标准 化 
X_hat = (X - mean) / nd.sqrt(var + eps) 
# 更 新 移动 平均 的 均值 和 方差 
moving_mean = momentum * moving_mean + (1.0 - momentum) * mean 
moving_var = momentum * moving_var + (1.0 - momentum) * var 
Y = gamma * X_hat + beta # 拉 伸 和 偏 移 
return Y, moving_mean, moving_var 


接 下 来 ， 我 们 自 定义 一 个 BatchNorm 层 。 它 保存 参与 求 梯 度 和 迭代 的 拉 伸 参数 gamma 和 
偏 移 参 数 beta， 同 时 也 维护 移动 平均 得 到 的 均值 和 方差 ， 以 便 能 够 在 模型 预测 时 被 使 用 。 
BatchNorm 实例 所 需 指定 的 num_features 参数 对 于 全 连接 层 来 说 应 为 输出 个 数 ， 对 于 卷 积 层 来 
说 则 为 输出 通道 数 。 该 实例 所 需 指 定 的 num_dims 参数 对 于 全 连接 层 和 卷 积 层 来 说 分 别 为 2 和 4。 


In [2]: class BatchNorm(nn.BLlock): 
def init__(self, num_features, num_dims, **kwargs): 
super (BatchNorm, self).__init__(**kwargs) 
if num_dims == 2: 
shape = (1, num_features) 
else: 
shape = (1, num_features, 1, 1) 
# 参与 求 梯度 和 迭代 的 拉 伸 和 偏 移 参数 ， 分别 初始 化 成 6 和 1 
self.gamma = self.params.get('gamma', shape=shape, init=init.One()) 
self.beta = self.params.get('beta', shape=shape, init=init.Zero()) 
# 不 参与 求 梯度 和 迭代 的 变量 ， 全 在 内 存 上 初始 化 成 9 
self.moving_mean = nd.zeros(shape) 
self.moving_var = nd.zeros(shape) 


def forward(self, X): 

# 如 果 X 不 在 内 存 上 ， 将 moving_mean 和 moving_var 复 制 到 X 所 在 显存 上 

if self.moving_mean.context != X.context: 
self.moving_mean = self.moving_mean.copyto(X.context) 
self.moving_var = self.moving_var.copyto(X.context) 

# 保存 更 新 过 的 moving_mean 和 moving_var 

Y, self.moving_mean, self.moving_var = batch_norm( 
X, self.gamma.data(), self.beta.data(), self.moving_mean, 
self.moving_var, eps=le-5, momentum=0.9) 

return Y 


5.10.3 ”使 用 批量 归 一 化 层 的 LeNet 
下 面 我 们 修改 5.5 节 介绍 的 LeNet 模型 ， 从 而 应 用 批量 归 一 化 层 。 我 们 在 所 有 的 卷 积 层 或 
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全 连接 层 之 后 、 激 活 层 之 前 加 入 批量 归 一 化 层 。 


In [3]: net = 


nn.Sequential() 


net.add(nn.Conv2D(6, kernel_size=5), 


BatchNorm(6, num_dims=4) ， 
nn.Activation('sigmoid'), 
nn.MaxPool2D(pool_size=2, strides=2), 
nn.Conv2D(16, kernel_size=5), 
BatchNorm(16, num_dims=4) , 
nn.Activation('sigmoid'), 
nn.MaxPool2D(pool_size=2, strides=2), 
nn.Dense(120), 

BatchNorm(120, num_dims=2), 
nn.Activation('sigmoid'), 
nn.Dense(84) , 

BatchNorm(84, num_dims=2) , 
nn.Activation('sigmoid'), 
nn.Dense(10) ) 


下 面 我 们 训练 修改 后 的 模型 。 


In [4]: lr, num epochs batch_size, ctx = 1.0, 5, 256, d2l.try_gpu() 
net. initialize(ctx=ctx, init=init.Xavier() ) 


trainer 


= gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 


train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size) 
d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 


num_epochs) 


training on gpu(0) 
epoch 1, loss 0.6675, train acc 0.760, test acc 0.824, time 3.6 sec 


epoch 2, loss 
epoch 3, loss 
epoch 4, loss 
epoch 5, loss 


0.3946, train acc 0.858, test acc 0.813, time 3.4 sec 
0.3477, train acc 0.874, test acc 0.740, time 3.3 sec 
0.3215, train acc 0.884, test acc 0.867, time 3.3 sec 
0.3015, train acc 0.890, test acc 0.823, time 3.4 sec 


最 后 我 们 得 看 第 一 个 批量 归 一 化 层 学 习 到 的 拉 伸 参数 gamma All fits S BL beta. 


In [5]: net[1].gamma.data().reshape((-1,)), net[1].beta.data().reshape((-1,)) 


OutrSsis A 


[2.0340614 1.5274717 1.7007711 1.2053087 1.5917673 1.7429659] 
<NDArray 6 @gpu(0)>, 

[ 1.1765741 ©.02335754 0.4149146 0©.60519356 -0.2102287 -1.936496 | 
<NDArray 6 @gpu(Q)>) 


5.10.4 简洁 实现 


与 我 们 刚刚 目 己 定义 的 BatchNorm 类 相 比 ，Gluon 中 nn 模块 定义 的 BatchNorm 类 使 用 
起 来 更 加 简单 。 它 不 需要 指定 自己 定义 的 BatchNorm 类 中 所 需 的 num_features 和 num_dims 
参数 值 。 在 Gluon 中 ， 这 些 参数 值 都 将 通过 延 后 初始 化 而 自动 获取 。 下 面 我 们 用 Gluon 实现 使 
用 批量 归 一 化 的 LeNet。 
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In [6]: net = nn.Sequential() 
net.add(nn.Conv2D(6, kernel_size=5) ， 
nn.BatchNorm(), 
nn.Activation('sigmoid'), 
nn.MaxPool2D(pool_size=2, strides=2), 
nn.Conv2D(16, kernel_size=5), 
nn.BatchNorm(), 
nn.Activation('sigmoid'), 
nn.MaxPool2D(pool_size=2, strides=2), 
nn.Dense(120) , 
nn.BatchNorm() , 
nn.Activation('sigmoid'), 
nn.Dense(84) , 
nn.BatchNorm() , 
nn.Activation('sigmoid'), 
nn.Dense(10) ) 


使 用 同样 的 超 参 数 进行 训练 。 
In [7]: net.initialize(ctx=ctx, init=init.Xavier()) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
d21l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) 


training on gpu(0) 


epoch 1, loss 0.6382, train acc 0.774, test acc 0.833, time 2.1 sec 
epoch 2, loss 0.3904, train acc 0.859, test acc 0.854, time 2.1 sec 
epoch 3, loss 0.3448, train acc 0.875, test acc 0.855, time 1.9 sec 
epoch 4, loss 0.3198, train acc 0.884, test acc 0.842, time 2.0 sec 
epoch 5, loss 0.2970, train acc 0.891, test acc 0.880, time 2.1 sec 


在 模型 训练 时 ， 批 量 归 一 化 利用 小 批量 上 的 均值 和 标准 差 ， 不 断 调整 神经 网 络 的 中 间 输 出 ， 
从 而 使 整个 神经 网 络 在 各 层 的 中 间 输 出 的 数值 更 稳定 。 

对 全 连接 层 和 卷 积 层 做 批量 归 一 化 的 方法 稍 有 不 同 。 

批量 归 一 化 层 和 丢弃 层 一 样 ， 在 训练 模式 和 预测 模式 的 计算 结果 是 不 一 样 的 。 

Gluon 提供 的 BatchNorm 类 使 用 起 来 简单 、 方 便 。 


练习 

(1) 能 否 将 批量 归 一 化 前 的 全 连接 层 或 卷 积 层 中 的 偏差 参数 去 掉 ? 为 什么 ? 《提示 : 回忆 批量 
归 一 化 中 标准 化 的 定义 。) 

(2) 尝试 调 大 学 习 率 。 同 5.5 节 中 未 使 用 批量 归 一 化 的 LeNet 相 比 ， 现 在 是 不 是 可 以 使 用 更 大 的 学 习 率 ? 

(3) 尝试 将 批量 归 一 化 层 插 入 LeNet 的 其 他 地 方 ， 观 察 并 分 析 结 果 的 变化 。 

(4) 尝试 一 下 不 学 习 拉 伸 参 数 gamma 和 偏 移 量 参数 beta (构造 的 时 候 加 入 参数 grad_ 
req='null' 来 避免 计算 梯度 )， 观 察 并 分 析 结果 。 

(5) 查看 BatchNorm 类 的 文档 来 了 解 更 多 使 用 方法 ， 例 如 ， 如 何在 训练 时 使 用 基于 全 局 平均 
的 均值 和 方差 。 
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5.11 残 差 网 络 ( ResNet ) 


让 我 们 先 思 考 一 个 问题 : 对 神经 网 络 模型 添加 新 的 层 ， 充 分 训练 后 的 [m] TT. 四 | 
模型 是 否 只 可 能 更 有 效 地 降低 训练 误差 ? 理论 上 ， 原 模型 解 的 空间 只 是 新 att = 
模型 解 的 空间 的 子 空间 。 也 就 是 说 ， 如 果 我 们 能 将 新 添加 的 层 训练 成 恒 等 ”中 
映射 f(x)=x， 新 模型 和 原 模型 将 同样 有 效 。 由 于 新 模型 可 能 得 出 更 优 的 
解 来 拟 合 训练 数据 集 ， 因 此 添加 层 似乎 更 容易 降低 训练 误差 。 然 而 在 实践 
中 ， 添 加 过 多 的 层 后 训练 误差 往往 不 降 反 升 。 即 使 利用 批量 归 一 化 带 来 的 数值 稳定 性 使 训练 深 
层 模 型 更 加 容易 ， 该 问题 仍然 存在 。 针 对 这 一 问题 ， 何 恺 明 等 人 提出 了 残 差 网 络 (ResNet) |”. 
它 在 2015 年 的 ImageNet 图 像 识 别 挑战 赛 夺 魁 ， 并 深刻 影响 了 后 来 的 深度 神经 网 络 的 设计 。 






5.11.1 ÆR 


让 我 们 聚焦 于 神经 网 络 局 部 。 如 图 5-9 所 示 ， 设 输入 为 x。 假 设 我 们 希望 学 出 的 理想 映射 
为 f(x)， 从 而 作为 图 5-9 最 上 方 激活 函数 的 输入 。 左 图 虚线 框 中 的 部 分 需要 直接 拟 合 出 该 映射 
jx)， 而 右 图 虚线 框 中 的 部 分 则 需要 拟 合 出 有 关 恒 等 映射 的 残 差 映射 f(x) 一 Xx。 残 差 映 射 在 实 
际 中 往往 更 容易 优化 。 以 本 节 开 头 提 到 的 恒 等 映射 作为 我 们 布 望 学 出 的 理想 映射 A(x)。 我 们 
只 需 将 图 5-9 中 右 图 虚线 框 内 上 方 的 加 权 运 算 〈( 如 仿 射 ， 的 权重 和 偏差 参数 学 成 0， 那 么 f(x) 
即 为 恒 等 映 射 。 实 际 中 ， 当 理想 映射 f(x) 极 接近 于 恒 等 映 射 时 ， 残 差 映 射 也 易于 捕捉 恒 等 映 
射 的 细微 波动 。 图 $-9 右 图 也 是 ResNet 的 基础 块 ， 即 残 差 块 〈residual block)。 在 残 差 块 中 ， 
输入 可 通过 路 层 的 数据 线路 更 快 地 加 前 传播 。 
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图 5-9 设 输入 为 x。 假 设 图 中 最 上 方 激活 函数 输入 的 理想 映射 为 1(x)。 左 图 虚线 框 中 的 部 分 需要 直接 拟 
合 出 该 映射 foo， 而 右 图 虚线 框 中 的 部 分 需要 拟 合 出 有 关 恒 等 映射 的 残 差 映射 f(x) 一 x 
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ResNet 沿用 了 VGG 全 3x3 卷 积 层 的 设计 。 残 差 块 里 首先 有 2 个 有 相同 输出 通道 数 的 3 x 
3 卷 积 层 。 每 个 卷 积 层 后 接 一 个 批量 归 一 化 层 和 ReLU 激活 函数 。 然 后 我 们 将 输入 跳 过 这 2 个 
卷 积 运算 后 直接 加 在 最 后 的 ReLU 激活 函数 前 。 这 样 的 设计 要 求 2 个 卷 积 层 的 输出 与 输入 形状 
一 样 ， 从 而 可 以 相 加 。 如 果 想 改变 通道 数 ， 就 需要 引入 一 个 额外 的 1 x 1 卷 积 层 来 将 输入 变换 
成 需要 的 形状 后 再 做 相 加 运算 。 


残 差 块 的 实现 如 下 。 它 可 以 设 定 输出 通道 数 、 是 否 使 用 额外 的 1 x 1 卷 积 层 来 修改 通道 数 
以 及 卷 积 层 的 步 幅 。 


In [1]: import d2Lzh as d21 
from mxnet import gluon, init, nd 
from mxnet.gluon import nn 


class Residual(nn.Block): # 本 类 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def __init__(self, num_channels, use_lxlconv=False, strides=1, **xkwargs): 
super (Residual, self).__init__(**kwargs) 
self.convl = nn.Conv2D(num_channels, kernel_size=3, padding=1, 
strides=strides) 
self.conv2 = nn.Conv2D(num_channels, kernel_size=3, padding=1) 
if use_1xlconv: 
self.conv3 = nn.Conv2D(num_channels, kernel_size=1, 
strides=strides) 
else: 
self.conv3 = None 
self.bn1l = nn.BatchNorm() 
self.bn2 = nn.BatchNorm() 


def forward(self, X): 
Y = nd.relu(self.bn1i(self.conv1(X))) 
Y = self.bn2(self.conv2(Y) ) 
if self.conv3: 
X = self.conv3(X) 
return nd.relu(Y + X) 


下 面 我 们 来 查看 输入 和 输出 形状 一 致 的 情况 。 


In [2]: blk = Residual(3) 
blk. initialize() 
X = nd.random.uniform(shape=(4, 3, 6, 6)) 
bLk(X) .shape 


Out{2lhs -€4, 235° 6 6) 
我 们 也 可 以 在 增加 输出 通道 数 的 同时 减 半 输出 的 高 和 宽 。 


In [3]: blk = Residual(6, use_1xlconv=True, strides=2) 
blk. initialize() 
bLk(X) .shape 


Out[3]: (4, 6, 3, 3) 
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5.11.2 ResNet 模 型 


ResNet 的 前 两 层 跟 之 前 介绍 的 GoogLeNet 中 的 一 样 : 在 输出 通道 数 为 64、 步 幅 为 2 的 7x 
7 卷 积 层 后 接 步 幅 为 2 的 3x3 的 最 大 池 化 层 。 不 同 之 处 在 于 ResNet 每 个 卷 积 层 后 增加 的 批量 
归 一 化 层 。 
In [4]: net = nn.Sequential() 
net.add(nn.Conv2D(64, kernel_size=7, strides=2, padding=3), 


nn.BatchNorm(), nn.Activation('relu'), 
nn.MaxPool2D(pool_size=3, strides=2, padding=1) ) 


GoogLeNet 在 后 面 接 了 4 个 由 Inception 块 组 成 的 模块 。ResNet 则 使 用 4 个 由 残 差 块 组 成 
的 模块 ， 每 个 模块 使 用 若干 个 同样 输出 通道 数 的 残 差 块 。 第 一 个 模块 的 通道 数 同 输入 通道 数 一 
致 。 由 于 之 前 已 经 使 用 了 步 幅 为 2 的 最 大 池 化 层 ， 所 以 无 须 减 小 高 和 宽 。 之 后 的 每 个 模块 在 第 
一 个 残 差 块 里 将 上 一 个 模块 的 通道 数 翻 倍 ， 并 将 高 和 宽 减 半 。 


下 面 我 们 来 实现 这 个 模块 。 注 意 ， 这 里 对 第 一 个 模块 做 了 特别 处 理 。 


In [5]: def resnet_block(num_channels, num_residuals, first_block=False): 
blk = nn.Sequential() 
for i in range(num_residuals): 
if i == 0 and not first_block: 
blk.add(Residual(num_channels, use_1xlconv=True, strides=2) ) 
else: 
blLk.add(Residual(num_channelLs) ) 
return blk 


接着 我 们 为 ResNet 加 入 所 有 残 差 块 。 这 里 每 个 模块 使 用 2 个 残 差 块 。 


In [6]: net.add(resnet_block(64, 2, first_block=True), 
resnet_block(128, 2), 
resnet_block(256, 2), 
resnet_block(512, 2)) 


最 后 ， 与 GoogLeNet 一 样 ， 加 入 全 局 平均 池 化 层 后 接 上 全 连接 层 输出 。 


In [7]: net.add(nn.GlobalAvgPool2D(), nn.Dense(10) ) 


这 里 每 个 模块 里 有 4 个 卷 积 层 〈 不 计算 kK 1 卷 积 层 )， 加 上 最 开始 的 卷 积 层 和 最 后 的 全 连 
接 层 ， 共 计 18 层 。 这 个 模型 通常 也 被 称 为 ResNet-18。 通 过 配置 不 同 的 通道 数 和 模块 里 的 残 差 
块 数 可 以 得 到 不 同 的 ResNet 模型 ， 例 如 更 深 的 含 152 层 的 ResNet-152。 虽 然 ResNet 的 主体 架 
构 跟 GoogLeNet 的 类 似 ， 但 ResNet 结构 更 简单 ， 修 改 也 更 方便 。 这 些 因素 都 导致 了 ResNet if 
速 被 广泛 使 用 。 

在 训练 ResNet 之 前 ， 我 们 来 观察 一 下 输入 形状 在 ResNet 不 同 模块 之 间 的 变化 。 


In [8]: X = nd.random.uniform(shape=(1, 1, 224, 224)) 
net.initialize() 
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for layer in net: 
X = layer (Xx) 
print(layer.name, ‘output shape:\t', X.shape) 


conv5 output shape: Ch Be tke kee 
batchnorm4 output shape: (1, 64, 112, 112) 
reluO output shape: (d; 64,- i212, 112) 

poolO output shape: (1, 64, 56, 56) 
sequentiall output shape: (1, “64, “56, 56) 
sequential2 output shape: CL; “i265; 26, 28) 
sequential3 output shape: (1, 256, 14, 14) 
sequential4 output shape: (is Shae E-N 
pooll output shape: op WBE de Ce 

denseO output shape: (1, 10) 


5.11.3 训练 模型 
下 面 我 们 在 Fashion-MNIST 数据 集 上 训练 ResNet。 


In [9]: lr, num_epochs, batch_size, ctx = 0.05, 5, 256, d2l.try_gpu() 
net. initialize(force_reinit=True, ctx=ctx, init=init.Xavier()) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96) 
d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) 


training on gpu(0) 
epoch 1, loss 0.4848, train acc 
epoch 2, loss 0.2539, train acc 
epoch 3, loss 0.1909, train acc 
0 
0 


.829, test. acc 
.906, test acc 
.930, test acc 
.947, test acc 
962, test acc 


.890, time 15.7 sec 
.910, time 14.4 sec 
.916, time 14.4 sec 
.919, time 14.3 sec 
.912, time 14.4 sec 


epoch 4, loss 0.1442, train acc 
epoch 5, loss 0.1072, train acc 


Oo O O © © 
O © © © © 


小 结 
© 残 差 块 通过 跨 层 的 数据 通道 从 而 能 够 训练 出 有 效 的 深度 神经 网 络 。 
© ResNet 深刻 影响 了 后 来 的 深度 神经 网 络 的 设计 。 


练习 


(1) 参考 ResNet 论文 的 表 1 来 实现 不 同 版 本 的 ResNet 9。 

(2) 对 于 比较 深 的 网 络 ，ResNet 论文 中 介绍 了 一 个 “瓶颈 ”架构 来 降低 模型 复杂 度 。 尝 试 实 
现 它 M, 

(3) Æ ResNet 的 后 续 版 本 里 ， 作 者 将 残 差 块 里 的 “ 卷 积 、 批 量 归 一 化 和 激活 ”结构 改 成 了 “ 批 
量 归 一 化 、 激 活 和 卷 积 ”， 实 现 这 个 改进 (MAF TA [20], Ald. 
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5.12 ”稠密 连接 网 络 ( DenseNet ) 





ResNet 中 的 跨 层 连接 设计 引申 出 了 数 个 后 续 工 作 。 本 节 介 绍 其 中 的 一 [m]; [m] 
稠密 连接 网 络 (DenseNet) “1。 它 与 ResNet 的 主要 区 别 如 图 5-10 


ae 


所 示 。 








图 5-10 ResNet (Æ) 与 DenseNet( 右 ) 在 跨 层 连接 上 的 主要 区 别 : 使 用 相 加 和 使 用 连结 


图 5-10 中 将 部 分 前 后 相 邻 的 运算 抽象 为 模块 4 和 模块 B。 与 ResNet 的 主要 区 别 在 于 ， 
DenseNet 里 模块 B 的 输出 不 是 像 ResNet 那样 和 模块 4 的 输出 相 加 ， 而 是 在 通道 维 上 连结 。 这 
样 模块 4 的 输出 可 以 直接 传 入 模块 B 后面 的 层 。 在 这 个 设计 里 ， 模 块 4 直接 跟 模 块 B 后 面 的 
所 有 层 连接 在 了 一 起 。 这 也 是 它 被 称 为 “稠密 连接 ”的 原因 。 


DenseNet 的 主要 构建 模块 是 稠密 块 (dense block) Mit Æ (transition layer)。 前 者 定义 
了 输入 和 输出 是 如 何 连结 的 ， 后 者 则 用 来 控制 通道 数 ， 使 之 不 过 大 。 


5.12.1 稠密 块 


DenseNet 使 用 了 ResNet 改良 版 的 “批量 归 一 化 、 激 活 和 卷 积 ”结构 (参见 5.11 节 的 练习 )， 
我 们 首先 在 conv_block 函数 里 实现 这 个 结构 。 


In [1]: import d2Lzh as d21 
from mxnet import gluon, init, nd 
from mxnet.gluon import nn 


def conv_block(num_channels): 
blk = nn.Sequential() 
blk.add(nn.BatchNorm(), nn.Activation('relu'), 


nn.Conv2D(num_channels, kernel_size=3, padding=1) ) 
return blk 


稠密 块 由 多 个 conv_block 组 成 ， 每 块 使 用 相同 的 输出 通道 数 。 但 在 前 癌 计 算 时 ， 我 们 将 
每 块 的 输入 和 输出 在 通道 维 上 连结 。 


In [2]: class DenseBlock(nn.Block): 
def __init__(self, num_convs, num_channels, *xkwargs): 
super (DenseBlock, self).__init__(**kwargs) 
self.net = nn.Sequential() 
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for _ in range(num_convs): 
self.net.add(conv_block(num_channelLs) ) 


def forward(self, X): 
for blk in self.net: 


Y = blk(X) 
X = nd.concat(X, Y, dim=1) # 在 通道 维 上 将 输入 和 输出 连结 
return X 


在 下 面 的 例子 中 ， 我 们 定义 一 个 有 2 个 输出 通道 数 为 10 的 卷 积 块 。 使 用 通道 数 为 3 的 输 
入 时 ， 我 们 会 得 到 通道 数 为 3+ 2x10 = 23 的 输出 。 卷 积 块 的 通道 数控 制 了 输出 通道 数 相 对 于 
输入 通道 数 的 增长 ， 因 此 也 被 称 为 增长 率 〈growth rate). 

In [3]: blk = DenseBlock(2, 10) 

blk. initialize() 

X = nd.random.uniform(shape=(4, 3, 8, 8)) 
Y = blk(X) 

Y.shape 


Duta]: (4.23, 8,8) 


5.12.2 过渡 层 


由 于 每 个 稠密 块 都 会 带 来 通道 数 的 增加 ， 使 用 过 多 则 会 带 来 过 于 复杂 的 模型 。 过 小 层 用 来 
控制 模型 复杂 度 。 它 通过 x 1 卷 积 层 来 减 小 通道 数 ， 并 使 用 步 幅 为 2 的 平均 池 化 层 减 半 高 和 
宽 ， 从 而 进一步 降低 模型 复杂 度 。 


In [4]: def transition_block(num_channels): 
blk = nn.Sequential() 
blk.add(nn.BatchNorm(), nn.Activation('relu'), 
nn.Conv2D(num_channels, kernel_size=1), 
nn.AvgPool2D(pool_size=2, strides=2) ) 
return blk 


对 上 一 个 例子 中 稠密 块 的 输出 使 用 通道 数 为 10 的 过 渡 层 。 此 时 输出 的 通道 数 减 为 10， 高 


In [5]: blk = transition_block(10) 
blk. initialize() 
blk(Y).shape 


Out[5]: (4, 10, 4, 4) 


5.12.3 DenseNet 模 型 
我 们 来 构造 DenseNet 模型 。DenseNet 首先 使 用 同 ResNet 一 样 的 单 卷 积 层 和 最 大 池 化 层 。 


In [6]: net = nn.Sequential() 
net.add(nn.Conv2D(64, kernel_size=7, strides=2, padding=3), 
nn.BatchNorm(), nn.Activation('relu'), 
nn.MaxPool2D(pool_size=3, strides=2, padding=1) ) 
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类 似 于 ResNet 接 下 来 使 用 的 4 个 残 差 块 ，DenseNet 使 用 的 是 4 个 稠密 块 。 同 ResNet 一 样 ， 
我 们 可 以 设置 每 个 稠密 块 使 用 多 少 个 卷 积 层 。 这 里 我 们 设 成 4， 从 而 与 $.11 节 的 ResNet-18 保 
持 一 致 。 稠 密 块 里 的 卷 积 层 通 道 数 CANIM) 设 为 32， 所 以 每 个 稠密 块 将 增加 128 个 通道 。 


ResNet 里 通过 步 幅 为 2 的 残 差 块 在 每 个 模块 之 间 减 小 高 和 宽 。 这 里 我 们 则 使 用 过 渡 层 来 
In [7]: num_channels, growth_rate = 64, 32 # num_channeLs 为 当前 的 通道 数 
num_convs_in_dense_blocks = [4, 4, 4, 4] 


for i, num_convs in enumérate(num_convs_in_dense_blocks): 

net.add(DenseBlock(num_convs, growth_rate) ) 

# 上 一 个 稠密 块 的 输出 通道 数 

num_channels += num_convs * growth_rate 

# 在 稠密 块 之 间 加 入 通道 数 减 半 的 过 渡 层 

if i != len(num_convs_in_dense_blocks) - 1: 
num_channels //= 2 
net.add(transition_block(num_channelLs) ) 


同 ResNet 一 样 ， 最 后 接 上 全 局 池 化 层 和 全 连接 层 来 输出 。 


In [8]: net.add(nn.BatchNorm(), nn.Activation('relu'), nn.GlobalAvgPool2D(), 
nn.Dense(10) ) 


5.12.4 JRE 
由 于 这 里 使 用 了 比较 深 的 网 络 ， 本 节 里 我 们 将 输入 高 和 宽 从 224 降 到 96 来 简化 计算 。 


In [9]: lr, num_epochs, batch_size, ctx = 0.1, 5, 256, d2l.try_gpu() 
net. initialize(ctx=ctx, init=init.Xavier() ) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr}) 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size, resize=96) 
d21l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx, 
num_epochs) 


training on gpu(0) 

epoch 1, loss 0.5387, train acc 0.808, test acc 0.862, time 14.7 sec 
epoch 2, loss 0.3157, train acc 0.885, test acc 0.875, time 13.0 sec 
epoch 3, loss 0.2646, train acc 0.903, test acc 0.891, time 13.0 sec 
epoch 4, loss 0.2375, train acc 0.914, test acc 0.899, time 13.0 sec 
epoch 5, loss 0.2124, train acc 0.923, test acc 0.915, time 13.0 sec 


小 结 
© 在 跨 层 连接 上 ， 不 同 于 ResNet 中 将 输入 与 输出 相 加 ，DenseNet 在 通道 维 上 连结 输入 与 输出 。 
© DenseNet 的 主要 构建 模块 是 稠密 块 和 过 渡 层 。 


练习 

(1) DenseNet 论文 中 提 到 的 一 个 优点 是 模型 参数 比 ResNet 的 更 小 ， 这 是 为 什么 ? 

(2) DenseNet 被 人 诉 病 的 一 个 问题 是 内 存 或 显存 消耗 过 多 。 真 的 会 这 样 吗 ? 可 以 把 输入 形状 换 
成 224 x224， 来 看 看 实际 的 消耗 。 

(3) 实现 DenseNet 论文 中 的 表 1 提出 的 不 同 版 本 的 DenseNet °”. 








与 之 前 介绍 的 多 层 感知 机 和 能 有 效 处 理 空间 信息 的 卷 积 神经 网 络 不 同 ， 循 环 神经 网 络 是 为 
更 好 地 处 理 时 序 信息 而 设计 的 。 它 引入 状态 变量 来 存储 过 去 的 信息 ， 并 用 其 与 当前 的 输入 共同 
决定 当前 的 输出 。 


循环 神经 网 络 常用 于 处 理 序 列 数据 ， 如 一 段 文字 或 声音 、 购 物 或 观 影 的 顺序 ， 甚 至 是 图 像 
中 的 一 行 或 一 列 像素 。 因 此 ， 循 环 神经 网 络 有 着 极为 广泛 的 实际 应 用 ， 如 语言 模型 、 文 本 分 
类 、 机 器 翻译 、 语 音 识别 、 图 像 分 析 、 手 写 识 别 和 推荐 系统 。 


因为 本 章 中 的 应 用 是 基于 语言 模型 的 ， 所 以 我 们 将 先 介 绍 语言 模型 的 基本 概念 ， 并 由 此 激 
发 循环 神经 网 络 的 设计 灵感 。 接 着 ， 我 们 将 描述 循环 神经 网 络 中 的 梯度 计算 方法 ， 从 而 探究 循 
环 神经 网 络 训练 可 能 存在 的 问题 。 对 于 其 中 的 部 分 问题 ， 我 们 可 以 使 用 本 章 稍 后 介绍 的 含 门 控 
的 循环 神经 网 络 来 解决 。 最 后 ， 我 们 将 拓展 循环 神经 网 络 的 架构 。 


6.1 语言 模型 HEE 达 讨论 区 


语言 模型 Clanguage model) 是 自然 语言 处 理 的 重要 技术 。 目 然 语 言 处 
理 中 最 常见 的 数据 是 文本 数据 。 我 们 可 以 把 一 段 自 然 语言 文本 看 作 一 段 离 
散 的 时 间 序 列 。 假 设 一 段 长 度 为 了 的 文本 中 的 词 依次 为 出 , w, Wr, ABA 
在 离散 的 时 间 序 列 中 ，w 4 乏 上 私 7) 可 看 作 在 时 间 步 〈time step) ¢ 的 输出 
或 标签 。 给 定 一 个 长 度 为 了 的 词 的 序列 w, Ws wr， 语 言 模型 将 计算 该 序列 的 概率 : 


P(W,, w,,*…, wr ) 

语言 模型 可 用 于 提升 语音 识别 和 机 器 翻译 的 性 能 。 例 如 ， 在 语音 识别 中 ， 给 定 一 段 “ 厨 房 
里 食油 用 完了 ”的 语音 ， 有 可 能 会 输出 “厨房 里 食油 用 完了 ”和 “厨房 里 石油 用 完了 ”这 两 个 
读音 完全 一 样 的 文本 序列 。 如 果 语 言 模 型 判断 出 前 者 的 概率 大 于 后 者 的 概率 ， 我 们 就 可 以 根据 
相同 读音 的 语音 输出 “厨房 里 食油 用 完了 ”的 文本 序列 。 在 机 器 翻译 中 ， 如 果 对 英文 “you go 
first” 逐 词 翻译 成 中 文 的 话 ， 可 能 得 到 “你 走 先 "你 先 走 ”等 排列 方式 的 文本 序列 。 如 果 语 
言 模 型 判断 出 “你 先 走 ”的 概率 大 于 其 他 排列 方式 的 文本 序列 的 概率 ， 我 们 就 可 以 把 “you go 
first” 翻 译 成 “你 先 走 ”。 
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6.1.1 语言 模型 的 计算 


既然 语言 模型 很 有 用 ， 那 该 如 何 计算 它 呢 ?假设 序列 wi, wW, wr 中 的 每 个 词 是 依次 生成 
的 ， 我 们 有 


T 
P(w, ws, Wr) = | | Pow so m4) 


t=] 
例如 ， 一 段 含有 4 个 词 的 文本 序列 的 概率 


P(w,, Wz, ws, W4) = P(w)P(w, |w )P(w |w, w )P(wa | Ww, wW, w3) 


为 了 计算 语言 模型 ， 我 们 需要 计算 词 的 概率 ， 以 及 一 个 词 在 给 定 前 几 个 词 的 情况 下 的 条 件 概 
率 ， 即 语言 模型 参数 。 设 训练 数据 集 为 一 个 大 型 文本 语料库 ， 如 维基 百科 的 所 有 条 目 。 词 的 概 
率 可 以 通过 该 词 在 训练 数据 集中 的 相对 词 频 来 计算 。 例 如 ，P(w) 可 以 计算 为 w 在 训练 数据 集 
中 的 词 频 〈 词 出 现 的 次 数 ) 与 训练 数据 集 的 总 词 数 之 比 。 因 此 ， 根 据 条 件 概率 定义 ， 一 个 词 在 
给 定 前 几 个 词 的 情况 下 的 条 件 概率 也 可 以 通过 训练 数据 集中 的 相对 词 频 计 算 。 例 如 ，PGw | w) 
可 以 计算 为 W 和 w 两 词 相 邻 的 频率 与 W 词 频 的 比值 ， 因 为 该 比值 即 PAm, w) P(w) 之 比 ; 
而 P(w | wy, w) 同 理 可 以 计算 为 W、w 和 w 这 3 个 词 相 邻 的 频率 与 WwW 和 ww, 这 2 个 词 相 邻 的 
频率 的 比值 。 以 此 类 推 。 


6.1.2 /元 语法 


当 序 列 长 度 增加 时 ， 计 算 和 存储 多 个 词 共 同 出 现 的 概率 的 复杂 度 会 呈 指 数 级 增加 。n 元 语 
法 通过 马尔 可 夫 假 设 〈 虽 然 并 不 一 定 成 立 ) 简化 了 语言 模型 的 计算 。 这 里 的 马尔 可 夫 假 设 是 指 
一 个 词 的 出 现 只 与 前 面 n 个 词 相 关 ， 即 nn MRA RE (Markov chain of ordern), WR n=l, 
那么 有 P(w |w,w,)= P(w; |w,)。 如 果 基 于 n--1 阶 马尔 可 夫 链 ， 我 们 可 以 将 语言 模型 改写 为 


T 
PW, W, Wr) © [| P(w; | Win- "t+, Wy) 
t=] 
DIEE n Ak (n-grams)。 它 是 基于 n-1 阶 马尔 可 夫 链 的 概率 语言 模型 。 当 分别 为 1、 
2 和 3 时 ， 我 们 将 其 分 别称 作 一 元 语法 (unigram)、 二 元 语法 (bigram) 和 三 元 语法 (trigram)。 
例如 ， 长 度 为 4 的 序列 w, wW, m, wa 在 一 元 语法 、 二 元 语法 和 三 元 语法 中 的 概率 分 别 为 
P(W,, W2, W3, W4) = P(W)P(wW, )P(w;)P(w4) 
P(w, Wz, Wz, w4) = P(w )P(w | m )P(w | w2)P(w, | w3) 
P(w, Wz, W3, W4) = P(w )P(w | w )P(w | w, w )P(w | W2, w3) 
X n 较 小 时 ，n 元 语法 往往 并 不 准确 。 例 如 ， 在 一 元 语法 中 ， 由 3 个 词组 成 的 句子 “你 走 
先 ” 和 “你 先 走 ” 的 概率 是 一 样 的 。 然 而 ， 当 n 较 大 时 ，n 元 语法 需要 计算 并 存储 大 量 的 词 频 
和 多 词 相 邻 频率 。 
那么 ， 有 没有 方法 在 语言 模型 中 更 好 地 平衡 以 上 这 两 点 呢 ? 我 们 将 在 本 章 探 究 这 样 的 方法 。 
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小 结 
e 语言 模型 是 自然 语言 处 理 的 重要 技术 。 
© NN 元 语法 是 基于 nn 一 1 阶 马尔 可 夫 链 的 概率 语言 模型 ， 其 中 权衡 了 计算 复杂 度 和 模型 准确 性 。 


练习 
(1) 假设 训练 数据 集中 有 10 万 个 词 ， 四 元 语法 需要 存储 多 少 词 频 和 多 词 相 令 频 率 ? 
(2) 你 还 能 想到 哪些 语言 模型 的 应 用 ? 





6.2 ”循环 神经 网 络 


6.1 节 介 绍 的 n 元 语法 中 ， 时 间 步 1 的 词 w, 基于 前 面 所 有 词 的 条 件 概 Oneal) 
率 只 考虑 了 最 近 时 间 步 的 n-1 个 词 。 如 果 要 考虑 比 1-(n-1) BRL ORE ee 
iat w 的 可 能 影响 ， 我 们 需要 增 大 n。 但 这 样 模型 参数 的 数量 将 随 之 时 指 ”[ 
数 级 增长 〈 可 参考 6.1 节 的 练习 )。 


本 节 将 介绍 循环 神经 网 络 。 它 并 非 刚 性 地 记忆 所 有 固定 长 度 的 序列 ， 而 是 通过 隐藏 状态 来 
存储 之 前 时 间 步 的 信息 。 首 先 我 们 回忆 一 下 前 面 介 绍 过 的 多 层 感知 机 ， 然 后 描述 如 何 语 加 隐藏 
状态 来 将 它 变 成 循环 神经 网 络 。 





6.2.1 不 合 隐 藏 状态 的 神经 网 络 


让 我 们 考虑 一 个 含 单 隐藏 层 的 多 层 感知 机 。 给 定 样本 数 为 x、 输 入 个 数 〈 特 征 数 或 特征 
向 量 维度 ) 为 4 的 小 批量 数据 样本 XeRR”“。 设 隐藏 层 的 激活 函数 为 6g， 那 么 隐藏 层 的 输出 
H eR” 计算 为 

H = 9(XW,, +b) 
其 中 隐藏 层 权 重 参 数 不，e 了 及 4%， 隐 藏 层 偏差 参数 b, eR, h 为 隐藏 单元 个 数 。 上 式 相 加 的 
两 项 形状 不 同 ， 因 此 将 按照 广播 机 制 相 加 (参见 2.2 节 )。 把 隐藏 变量 矿 作 为 输出 层 的 输入 ， 
且 设 输出 个 数 为 q (如 分 类 问题 中 的 类 别 数 )， 输 出 层 的 输出 为 
O = HW,, +b, 


其 中 输出 变量 Oe R”， 输 出 层 权 重 参数 所 i。 se 及 “?， 输 出 层 偏差 参数 b eR. WREAK 
问题 ， 我 们 可 以 使 用 softmax(O) 来 计算 输出 类 别 的 概率 分 布 。 


6.2.2 ” 合 隐 藏 状态 的 循环 神经 网 络 


现在 我 们 考虑 输入 数据 存在 时 间 相 关 性 的 情况 。 假 设 X, eR” 是 序列 中 时 间 步 上 的 小 批 
量 输入 ，H, e R” 是 该 时 间 步 的 隐藏 变量 。 与 多 层 感知 机 不 同 的 是 ， 这 里 我 们 保存 上 一 时 间 
步 的 隐藏 变量 H, ，， 并 引入 一 个 新 的 权重 参数 W,, e R”“， 该 参数 用 来 描述 在 当前 时 间 步 如 何 
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使 用 上 一 时 间 步 的 隐藏 变量 。 有 具体 来 说 ， 时 间 步 上 的 隐藏 变量 的 计算 由 当前 时 间 步 的 输入 和 上 
一 时 间 步 的 隐藏 变量 共同 决定 : 
H, = 0(X,W,, +H, WW, +b,) 

与 多 层 感 知 机 相 比 ， 我 们 在 这 里 添加 了 H,_Wi, 一 项 。 由 上 式 中 相 邻 时 间 步 的 隐藏 变量 
H, M A, 之 间 的 关系 可 知 ， 这 里 的 隐藏 变量 能 够 捕捉 截至 当前 时 间 步 的 序列 的 历史 信息 ， 就 
像 是 神经 网 络 当前 时 间 步 的 状态 或 记忆 一 样 。 因 此 ， 该 隐藏 变量 也 称 为 隐藏 状态 。 由 于 隐藏 状 
态 在 当前 时 间 步 的 定义 使 用 了 上 一 时 间 步 的 隐藏 状态 ， 上 式 的 计算 是 循环 的 。 使 用 循环 计算 的 
网 络 即 循环 神经 网 络 (recurrent neural network). 


循环 神经 网 络 有 很 多 种 不 同 的 构造 方法 。 含 上 式 所 定义 的 隐藏 状态 的 循环 神经 网 络 是 极为 
常见 的 一 种 。 若 无 特别 说 明 ， 本 章 中 的 循环 神经 网 络 均 基 于 上 式 中 隐藏 状态 的 循环 计算 。 在 时 
间 步 t， 输 出 层 的 输出 和 多 层 感知 机 中 的 计算 类 似 : 
0, =H Wn +, 


PERAR Ws Se LE AE LW, EROH, Wyp RPA 和 偏差 b, e RW， 以 及 输 
出 层 的 权重 W,, ER” 和 偏差 b, eR™. E EER, RAN th 
始终 使 用 这 些 模型 参数 。 因 此 ， 循 环 神经 网 络 模型 参数 的 数量 不 随时 间 步 的 增加 而 增长 。 

图 6-1 展示 了 循环 神经 网 络 在 3 个 相 邻 时 间 步 的 计算 逻辑 。 在 时 间 步 f， 隐藏 状态 的 计算 
可 以 看 成 是 将 输入 X, 和 前 一 时 间 步 隐藏 状态 H, 连结 后 输入 一 个 激活 函数 为 的 全 连接 层 。 
该 全 连接 层 的 输出 就 是 当前 时 间 步 的 隐藏 状态 Ho BERSA Woa 5 Ww, 的 连结 ， 偏 差 为 
b。 当 前 时 间 步 1 的 隐藏 状态 天, 将 参与 下 一 个 时 间 步 ++1 的 隐藏 状态 Ha 的 计算 ， 并 输入 到 
当前 时 间 步 的 全 连接 输出 层 。 


输出 层 


隐藏 状态 





输入 


国 罗 由 全 连接 层 和 激活 函数 J, sm 了 


图 6-1 含 隐 藏 状态 的 循环 神经 网 络 


我 们 刚刚 提 到 ， 隐 藏 状态 中 XW, + AW, 的 计算 等 价 于 XX 与 Hi 连结 后 的 矩阵 乘 
WW, 与 W,, 连结 后 的 矩阵 。 接 下 来 ， 我 们 用 一 个 具体 的 例子 来 验证 这 一 点 。 首 先 ， 我 们 构造 
矩阵 X、W_xh、H 和 W_hh， 它 们 的 形状 分 别 为 (3, 1)、(1, 4)、(3, 4) 和 (4, 4)。 将 X 与 W_xh、H 
与 W_hh 分 别 相 乘 ， 再 把 两 个 乘法 运算 的 结果 相 加 ， 得 到 形状 为 (3, 4) 的 矩阵 。 
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In [1]: from mxnet import nd 


X, W_xh = nd.random.normal(shape=(3, 1)), nd.random.normal(shape=(1, 4)) 
H, W_hh = nd.random.normal(shape=(3, 4)), nd.random.normal(shape=(4, 4)) 
nd.dot(X, W_xh) + nd.dot(H, W_hh) 


Out[1]: 
[[ 5.0373516 2.6754622 -1.6607479 -0.40628886] 
[ 0.948454 0.46941757 -1.1866101 -1.180677 |] 
[-1.1514019 0.8373027 -2.197437 -5.2480164 ]] 
<NDArray 3x4 @cpu(0)> 
将 矩阵 X 和 H 按 列 〈 维 度 1) 连结 ， 连 结 后 的 矩阵 形状 为 (3, 5)。 可 见 ， 连 结 后 矩阵 在 维 
FE 1 的 长 度 为 矩阵 Xx 和 +H 在 维度 1 的 长 度 之 和 “1 + 4)。 然 后 ， 将 矩阵 W_xh 和 W_hh 按 行 〈 维 
REO) 连结 ， 连 结 后 的 矩阵 形状 为 (5, 4)。 最 后 将 两 个 连结 后 的 矩阵 相 乘 ， 得 到 与 上 面 代码 输 
出 相同 的 形状 为 (3, 4) 的 矩阵 。 


In [2]: nd.dot(nd.concat(X, H, dim=1), nd.concat(W_xh, W_hh, dim=0)) 


Out[2]: 
[[ 5.0373516 2.6754622 -1.6607479 -0.40628862 | 
[ 0.94845396 ©.46941754 -1.1866102 -1.1806769 |] 
[-1.1514019 0.83730274 -2.1974368 -5.2480164 ]] 
<NDArray 3x4 @cpu(0)> 


6.2.3 WA: 基于 字符 级 循环 神经 网 络 的 语言 模型 


最 后 我 们 介绍 如 何 应 用 循环 神经 网 络 来 构建 一 个 语言 模型 。 设 小 批量 中 样本 数 为 1， 文 本 
序列 为 “ 想 ”“ 要 ”“ 有 ”“ 直 ”“ 升 "“ 机 ”图 6-2 演示 了 如 何 使 用 循环 神经 网 络 基于 当前 和 过 
去 的 字符 来 预测 下 一 个 字符 。 在 训练 时 ， 我 们 对 每 个 时 间 步 的 输出 层 输 出 使 用 softmax 运算 ， 
然后 使 用 交叉 焙 损 失 函 数 来 计算 它 与 标签 的 误差 。 在 图 6-2 中 ， 由 于 隐藏 层 中 隐藏 状态 的 循环 
计算 ， 时 间 步 3 的 输出 O 取决 于 文本 序列 “ 想 ”“ 要 ”“ 有 ”。 由 于 训练 数据 中 该 序列 的 下 一 个 
词 为 “ 直 ”， 时 间 步 3 的 损失 将 取决 于 该 时 间 步 基于 序列 “ 想 ”“ 要 ”“ 有 ”生成 下 一 个 词 的 概 
率 分 布 与 该 时 间 步 的 标签 “ 直 ”。 





时 间 步 1 2 3 4 5 
标签 “要 ” 

输出 层 

隐藏 层 
输入 “ 想 ” “ga” “有 ” “eB” “FL” 


6-2 ”基于 字符 级 循环 神经 网 络 的 语言 模型 。 输 入 序列 和 标签 序列 分 别 为 
“ta” “em” “mB” ie “H” 和 “IE” “a “H” “Fr” ws 
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因为 每 个 输入 词 是 一 个 字符 ， 因 此 这 个 模型 被 称 为 字符 级 循环 神经 网 络 (character-level 
recurrent neural network )。 因 为 不 同 字 符 的 个 数 远 小 于 不 同 词 的 个 数 〈 对 于 英文 尤其 如 此 )， 所 
以 字符 级 循环 神经 网 络 的 计算 通常 更 加 简单 。 在 接 下 来 的 6.3 节 至 6.5 节 里 ， 我 们 将 介绍 它 的 
具体 实现 。 


使 用 循环 计算 的 网 络 即 循环 神经 网 络 。 

循环 神经 网 络 的 隐藏 状态 可 以 捕捉 截至 当前 时 间 步 的 序列 的 历史 信息 。 
循环 神经 网 络 模型 参数 的 数量 不 随时 间 步 的 增加 而 增长 。 

可 以 基于 字符 级 循环 神经 网 络 来 创建 语言 模型 。 


(1) 如 果 使 用 循环 神经 网 络 来 预测 一 段 文本 序列 的 下 一 个 词 ， 输 出 个 数 应 该 设 为 多 少 ? 
(2) 为 什么 循环 神经 网 络 可 以 表达 某 时 间 步 的 词 基 于 文本 序列 中 所 有 过 去 的 词 的 条 件 概 率 ? 





6.3 语言 模型 数据 集 ( 歌词 ) 


本 节 将 介绍 如 何 预 处 理 一 个 语言 模型 数据 集 ， 并 将 其 转换 成 字符 级 循环 
神经 网 络 所 需要 的 输入 格式 。 为 此 ， 我 们 收集 了 周杰伦 从 第 一 张 专辑 《Jayy》 
到 第 十 张 专 辑 《路 时 代 》 中 的 歌词 ， 并 在 后 面 几 节 里 应 用 循环 神经 网 络 来 训 
练 一 个 语言 模型 。 当 模型 训练 好 后 ， 我 们 就 可 以 用 这 个 模型 来 创作 歌词 。 





6.3.1 读 取 数 据 集 
首先 读 取 这 个 数据 集 ， 看 看 前 40 个 字符 是 什么 样 的 。 


In [1]: from mxnet import nd 
import random 
import zipfile 


with zipfile.ZipFile('../data/jaychou_lyrics.txt.zip') as zin: 
with zin.open('jaychou_lyrics.txt') as f: 
corpus_chars = f.read().decode('utf-8') 
corpus_chars[:40] 


Out[1]: “' 想 要 有 直升机 \n 想 要 和 你 飞 到 宇宙 去 \n 想 要 和 你 融化 在 一 起 \n 融 化 在 宇宙 里 \n 我 每 天 每 天 每 ' 


这 个 数据 集 有 6 万 多 个 字符 。 为 了 打印 方便 ， 我 们 把 换行 符 蔡 换 成 空格 ， 然 后 仅 使 用 前 1 万 个 
字符 来 训练 模型 。 


In [2]: corpus_chars corpus_chars.replace('\n', ' ').replace('\r', ' ') 


corpus_chars[0:10000 | 


corpus_chars 
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6.3.2 ”建立 字符 索引 


我 们 将 每 个 字符 映射 成 一 个 从 0 开始 的 连续 整数 ， 又 称 索 引 ， 来 方便 之 后 的 数据 处 理 。 为 
了 得 到 索引 ， 我 们 将 数据 集 里 所 有 不 同 字 符 取 出 来 ， 然 后 将 其 逐一 映射 到 索引 来 构造 词典 。 接 
着 ， 打 印 vocab_size， 即 词典 中 不 同 字 符 的 个 数 ， 又 称 词典 大 小 。 


In [31]: tdx.to_ char 


= List(set(corpus_chars) ) 
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char) ]) 


vocab_size = len(char_to_idx) 
vocab_size 


Out[3]:- 1027 


之 后 ， 将 训练 数据 集中 每 个 字符 转化 为 索引 ， 并 打印 前 20 个 字符 及 其 对 应 的 索引 。 


In [4]: corpus_indices = [char_to_idx[char] for char in corpus_chars] 
sample = corpus_indices[:20] 
print('chars:', ''.join([idx_to_char[idx] for idx in sample])) 
print('indices:', sample) 


chars: 想 要 有 直升机 想 要 和 你 飞 到 宇宙 去 想 要 和 
indices: [672, 744, 791, 45, 122, 835, 732, 672, 744, 651, 614, 208, 910, 786, 411, 
2 672, 744, 651] 
我 们 将 以 上 代码 封装 在 d2Lzh 包 里 的 load_data_jay_lyrics 函数 中 ， 以 方便 后 面 章节 
调用 。 调 用 该 函数 后 会 依次 得 到 corpus_indices, char_to_idx, idx_to_char Fil vocab_ 
size 这 4 个 变量 。 


6.3.3 ”时 序数 据 的 采样 


在 训练 中 我 们 需要 每 次 随机 读 取 小 批量 样本 和 标签 。 与 第 3 间 和 第 5 章 的 实验 数据 不 同 的 
是 ， 时 序数 据 的 一 个 样本 通常 包含 连续 的 字符 。 假 设 时 间 步 数 为 5， 样 本 序列 为 5 个 字符 ， 即 
“ 想 ”“ 要 ”“ 有 ”“ 直 ”“ 升 ”。 该 样本 的 标签 序列 为 这 些 字符 分 别 在 训练 集中 的 下 一 个 字符 ， 即 
“要 “有 ”“ 直 ”“ 升 “机 ”。 我 们 有 两 种 方式 对 时 序数 据 进行 采样 ， 分 别 是 随机 采样 和 相 邻 采样 。 


1. 随机 采样 


下 面 的 代码 每 次 从 数据 里 随机 采样 一 个 小 批量 。 其 中 批量 大 小 batch_size 指 每 个 小 批量 
的 样本 数 ，num_steps 为 每 个 样本 所 包含 的 时 间 步 数 。 在 随机 采样 中 ， 每 个 样本 是 原始 序列 上 
任意 截取 的 一 段 序列 。 相 邻 的 两 个 随机 小 批量 在 原始 序列 上 的 位 置 不 一 定 相 毗邻 。 因 此 ， 我 们 
无 法 用 一 个 小 批量 最 终 时 间 步 的 隐藏 状态 来 初始 化 下 一 个 小 批量 的 隐藏 状态 。 在 训练 模型 时 ， 
每 次 随机 采样 前 都 需要 重新 初始 化 隐藏 状态 。 
In [5]: # 本 函数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
def data_iter_random(corpus_indices, batch_size, num_steps, ctx=None): 


# 减 1 是 因为 输出 的 索引 是 相应 输入 的 索引 加 1 


num_examples = (len(corpus_indices) - 1) // num_steps 
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epoch_size = num_examples // batch_size 
example_indices = lList(range(num_examplLes) ) 
random. shuffle(example_indices) 


# 返回 从 pos 开 始 的 长 为 num_steps 的 序列 
def _data(pos) : 
return corpus_indices[pos: pos + num_steps] 


for i in range(epoch_size): 
# 每 次 读 取 batch_size 个 随机 样本 
ih ee batch_size 
batch_indices = example_indices[i: i + batch_size] 
X = [_data(j * num_steps) for j in batch_indices] 
Y = [_data(j * num_steps + 1) for j in batch_indices] 
yield nd.array(X, ctx), nd.array(Y, ctx) 


让 我 们 输入 一 个 从 0 到 29 的 连续 整数 的 人 工序 列 。 设 批量 大 小 和 时 间 步 数 分 别 为 2 和 6. 
打印 随机 采样 每 次 读 取 的 小 批量 样本 的 输入 X 和 标签 Y。 可 见 ， 相 邻 的 两 个 随机 小 批量 在 原始 
序列 上 的 位 置 不 一 定 相 毗邻 。 


In [6]: my_seq = List(range(30) ) 
for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6): 
i ay "WAT?" Yy hn") 


X: 

LL 区 > Zar 2h. oe, SB Se 
LIG? ‘28.20. “24.221 25000 

<NDArray 2x6 @cpu(Q)> 

Y: 

oh 2e So 4 Sy 61 
EE 20s eae Be. 23s 24.) ] 

<NDArray 2x6 @cpu(0)> 


Az 

(112; 131 Ms om | 
LO T70 Bere eee 

<NDArray 2x6 @cpu(0)> 

Yo 

LEL3». 14. 15. 16 Tr SE] 
Le 

<NDArray 2x6 @cpu(0)> 


2. 相 邻 采样 


除 对 原始 序列 做 随机 采样 之 外 ， 我 们 还 可 以 令 相 邻 的 两 个 随机 小 批量 在 原始 序列 上 的 位 置 
相 毗 邻 。 这 时 候 ， 我 们 束 可 以 用 一 个 小 批量 最 终 时 间 步 的 隐藏 状态 来 初始 化 下 一 个 小 批量 的 隐 
藏 状态 ， 从 而 使 下 一 个 小 批量 的 输出 也 取决 于 当前 小 批量 的 输入 ， 并 如 此 循环 下 去 。 这 对 实现 
循环 神经 网 络 造成 了 两 方面 影响 : 一 方面 ， 在 训练 模型 时 ， 我 们 只 需 在 每 一 个 迭代 周期 开始 时 
初始 化 隐藏 状态 ， 另 一 方面 ， 当 多 个 相 邻 小 批量 通过 传递 隐藏 状态 串联 起 来 时 ， 模 型 参数 的 梯 


-158° 第 6 章 循环 神经 网 络 


度 计 算 将 依赖 所 有 串联 起 来 的 小 批量 序列 。 同 一 迭代 周期 中 ， 随 着 和 迭代 次 数 的 增加 ， 梯 度 的 计 
算 开销 会 越 来 越 大 。 为 了 使 模型 参数 的 梯度 计算 只 依赖 单 次 迭代 读 取 的 小 批量 序列 ， 我 们 可 以 
在 每 次 读 取 小 批量 前 将 隐藏 状态 从 计算 图 中 分 离 出 来 。 我 们 将 在 6.4 节 的 实现 中 了 解 这 种 处 理 
方式 。 


In [7]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def data_iter_consecutive(corpus_indices, batch_size, num_steps, ctx=None): 

corpus_indices = nd.array(corpus_indices, ctx=ctx) 

data_len = lLen(corpus_indices) 

batch_len = data_len // batch_size 

indices = corpus_indices[@: batch_sizexbatch_len].reshape( ( 
batch_size, batch_len) ) 

epoch_size = (batch_len - 1) // num_steps 

for i in range(epoch_size): 
i = i x num_steps 
X = indices[:, i: 1 + num_steps] 
Y = indices[:, i + 1: 71 + num_steps + 1] 
yield X, Y 


同样 的 设置 下 ， 打 印 相 邻 采样 每 次 读 取 的 小 批量 样本 的 输入 X 和 标签 Y。 相 邻 的 两 个 随机 
小 批量 在 原始 序列 上 的 位 置 相 毗邻 。 


In [8]: for X, Y in data_iter_consecutive(my_seq, batch_size=2, num_steps=6): 
erinec’s: "> Ks TRAE *, VY; ORE) 


p 

Prey“ te 2a. 3% 45° 8,2 
(iS, 266 ave 28. 29%-28343 

<NDArray 2x6 @cpu(0)> 

Ye 

Ld hay irae at UR T eee 
P16. 27%. 18... 19, 20. 125.4) 

<NDArray 2x6 @cpu(0)> 


X: 

fe a Ben” Be SB 2s 
(Zee es 25. 24. 25. -26.)) 

<NDArray 2x6 @cpu(0)> 

T: 

LE Tr Sy ie ee tbs Deed 
[a2. 230-245 25.26.) 27.41 

<NDArray 2x6 @cpu(0)> 


小 结 


© 时 序数 据 采样 方式 包括 随机 采样 和 相 邻 采样 。 使 用 这 两 种 方式 的 循环 神经 网 络 训练 在 实现 上 
略 有 不 同 。 





6.4 循环 神经 网 络 的 从 零 开 始 实现 + 159% 


练习 
(1) 你 还 能 想到 哪些 采样 小 批量 时 序数 据 的 方法 ? 


(2) 如 果 我 们 希望 一 个 序列 样本 是 一 个 完整 的 句子 ， 这 会 给 小 批量 采样 带 来 什么 样 的 问题 ? 





6.4 ”循环 神经 网 络 的 从 零 开始 实现 


在 本 节 中 ， 我 们 将 从 零 开始 实现 一 个 基于 字符 级 循环 神经 网 络 的 语言 
模型 ， 并 在 周杰伦 专辑 歌词 数据 集 上 训练 一 个 模型 来 进行 歌词 创作 。 首 
先 ， 我 们 读 取 周杰伦 专辑 歌词 数据 集 。 

In [1]: import d2Lzh as d21 

import math 
from mxnet import autograd, nd 


from mxnet.gluon import loss as gloss 
import time 








(corpus_indices, char_to_idx, idx_to_char, 
vocab_size) = d21l. load_data_jay_lyrics() 


6.4.1 one-hot 向 量 


为 了 将 词 表示 成 回 量 输入 到 神经 网 络 ， 一 个 简单 的 办 法 是 使 用 one-hot 向 量 。 假 设 词典 中 
不 同 字符 的 数量 为 W ( 即 词 典 大 小 vocab_size)， 每 个 字符 已 经 同一 个 从 0 到 NN--1 的 连续 整 
数值 索引 一 一 对 应 。 如 果 一 个 字符 的 索引 是 整数 六 那么 我 们 创建 一 个 全 0 的 长 为 N NAS, 
并 将 其 位 置 为 i 的 元 素 设 成 1。 该 回 量 就 是 对 原 字符 的 one-hot 回 量 。 下 面 分 别 展 示 了 索引 为 0 
和 2 的 one-hot 同 量 ， 问 量 长 度 等 于 词典 大 小 。 


In [2]: nd.one_hot(nd.array([0, 2]), vocab_size) 


Out[2]: 
二 天 有 
| 
<NDArray 2x1027 @cpu(0)> 
我 们 每 次 采样 的 小 批量 的 形状 是 (批量 大 小 , 时 间 步 数 )。 下 面 的 函数 将 这 样 的 小 批量 变换 
成 数 个 可 以 输入 到 网 络 的 形状 为 (批量 大 小 , 词典 大 小 ) 的 矩阵 ， 和 矩阵 个 数 等 于 时 间 步 数 。 也 就 
是 说 ， 时 间 步 1 的 输入 为 ,eR”™”， 其 中 为 批量 大 小 ，4 为 输入 个 数 ， 即 one-hot 向 量 长 度 
(词典 大 小 )。 
In [3]: def to_onehot(X, size): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


return [nd.one_hot(x, size) for x in X.T] 
X = nd.arange(10).reshape((2, 5)) 
inputs = to_onehot(X, vocab_size) 


Llen(inputs), inputs[0].shape 


Out[3]: (5, (2, 1027)) 
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6.4.2 ”初始 化 模型 参数 
接 下 来 ， 我 们 初始 化 模型 参数 。 隐 藏 单元 个 数 num_hiddens 是 一 个 超 参 数 。 


In [4]: num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size 
ctx = d2l.try_gpu() 
print('will use', ctx) 


def get_params(): 
def _one(shape): 
return nd.random.normal(scale=0.01, shape=shape, ctx=ctx) 


# 隐藏 层 参数 
W_xh = _one((num_inputs, num_hiddens) ) 
W_hh = _one((num_hiddens, num_hiddens) ) 


b_h = nd.zeros(num_hiddens, ctx=ctx) 

# 输出 层 参数 

W_hq = _one((num_hiddens, num_outputs) ) 

b_q = nd.zeros(num_outputs, ctx=ctx) 

# 附 上 梯度 

params = [W_xh, W_hh, b_h, W_hq, b_q] 

for param in params: 
param.attach_grad() 

return params 


will use gpu(0) 


6.4.3 ”定义 模型 


我 们 根据 循环 神经 网 络 的 计算 表达 式 实现 该 模型 。 前 先 定义 init_rnn_state 函数 来 返回 
初始 化 的 隐藏 状态 。 它 返回 由 一 个 形状 为 (批量 大 小 , 隐藏 单 元 个 数 ) 的 值 为 0 的 NDArray 组 
成 的 元 组 。 使 用 元 组 是 为 了 更 便于 处 理 隐 藏 状态 含有 多 个 NDArray 的 情况 。 


In [5]: def init_rnn_state(batch_size, num_hiddens, ctx): 
return (nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx), ) 


下 面 的 rnn 函数 定义 了 在 一 个 时 间 步 里 如 何 计 算 隐 藏 状态 和 输出 。 这 里 的 激活 函数 使 用 了 
tanh 函数 。3.8 节 中 介绍 过 ， 当 元 素 在 实数 域 上 均匀 分 布 时 ，tanh 函数 值 的 均值 为 0。 


In [6]: def rnn(inputs, state, params): ; 
# _ inputs 和 outputs 和 为 num_steps 个 形状 为 (batch_size，vocab_size) 的 矩阵 
W_xh，W_hh，b_h，W_hq，b_q = params 
H, = state 
outputs = [] 
for X in inputs: 
H = nd.tanh(nd.dot(X, W_xh) + nd.dot(H, W_hh) + b_h) 
Y = nd.dot(H, W_hq) + b_q 
outputs.append(Y) 
return outputs, (H,) 
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In [7]: state = init_rnn_state(X.shape[0], num_hiddens, ctx) 
inputs = to_onehot(X.as_in_context(ctx), vocab_size) 
params = get_params() 
outputs, state_new = rnn(inputs, state, params) 
len(outputs), outputs[0].shape, state_new[0].shape 


Out(7]: (5, (2, 1027), (2, 256)) 


6.4.4 ”定义 预测 函数 


以 下 函数 基于 前 缀 prefix (含有 数 个 字符 的 字符 串 ) 来 预测 接 下 来 的 num_chars 个 字符 。 
这 个 函数 稍 显 复 杂 ， 其 中 我 们 将 循环 神经 单元 rnn 设置 成 了 函数 参数 ， 这 样 在 后 面 小 节 介 绍 其 
他 循环 神经 网 络 时 能 重复 使 用 这 个 函数 。 

In [8]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state, 
num_hiddens, vocab_size, ctx, idx_to_char, char_to_idx): 
state = init_rnn_state(1, num_hiddens, ctx) 
output = [char_to_idx[prefix[0]]] 
for t in range(num_chars + len(prefix) - 1): 
# 将 上 一 时 间 步 的 输出 作为 当前 时 间 步 的 输入 
X = to_onehot(nd.array([output[-1]], ctx=ctx), vocab_size) 
# 计算 输出 和 更 新 隐藏 状态 
(Y, state) = rnn(X, state, params) 
# 下 一 个 时 间 步 的 输入 是 prefix 里 的 字符 或 者 当前 的 最 佳 预测 字符 
if t < len(prefix) - 1: 
output.append(char_to_idx[prefix[t + 1]]) 
else: 
output.append(int(Y[0].argmax(axis=1).asscalar())) 
return ''.join([idx_to_char[i] for i in output]) 


我 们 先 测试 一 下 predict_rnn 函数 。 我 们 将 根据 前 级 “分 开 ” 创 作 长 度 为 10 个 字符 (不 
考虑 前 缀 长 度 ) 的 一 段 歌词 。 因 为 模型 参数 为 随机 值 ， 所 以 预测 结果 也 是 随机 的 。 


In [9]: predict_rnn(' 分 开 ',，10, rnn, params, init_rnn_state, num_hiddens, vocab_size, 


Ctx, tax_to'char, char_to_1dx) 


Out [9]: “分 开 拖 印 悉 纳 他 亮 做 载 为 共 ， 


6.4.5 ”裁剪 梯度 


循环 神经 网 络 中 较 容 易 出 现 梯 度 衰 减 或 梯度 爆炸 。 我 们 会 在 6.6 节 中 解释 原因 。 为 了 应 对 
梯度 爆炸 ， 我 们 可 以 裁剪 梯度 (clip gradient)。 假 设 我 们 把 所 有 模型 参数 梯度 的 元 素 拼 接 成 一 
个 回 量 g， 并 设 裁 剪 的 国 值 是 2。 裁剪 后 的 梯度 


a(i" 
min| ——, 1 |g 
ligil 
的 工 范 数 不 超 过 0。 
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In [10]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def grad_clipping(params, theta, ctx): 
norm = nd.array([0], ctx) 
for param in params: 
norm += (param.grad ** 2).sum() 
norm = norm.sqrt().asscalar() 
if norm > theta: 
for param in params: 
param.grad[:] *= theta / norm 


6.4.6 ARE 


BUI Fi EAA A&E (perplexity) 来 评价 语言 模型 的 好 坏 。 回 忆 一 下 3.4 We A 
PASH RE Mo WARRE ce MT AC NM iin AR eS BUS Fa FSB. READE, 


。 最 佳 情 况 下 ， 模 型 总 是 把 标签 类 别 的 概率 预测 为 1， 此 时 困惑 度 为 1; 

。 最 坏 情况 下 ， 模 型 总 是 把 标签 类 别 的 概率 预测 为 0， 此 时 困惑 度 为 正 无 穷 ; 

。 基线 情况 下 ， 模 型 总 是 预测 所 有 类 别 的 概率 都 相同 ， 此 时 困惑 度 为 类 别 个 数 。 

显然 ， 任 何 一 个 有 效 模 型 的 困惑 度 必须 小 于 类 别 个 数 。 在 本 例 中 ， 困 惑 度 必 须 小 于 词典 大 


小 vocab_size。 


6.4.7 ERR VIA 
与 第 3 章 和 第 5 章 中 的 模型 训练 函数 相 比 ， 这 里 的 模型 训练 函数 有 以 下 几 点 不 同 。 


C1) 使 用 困惑 度 评价 模型 。 
(2) 在 迭代 模型 参数 前 裁剪 梯度 。 
(3) 对 时 序数 据 采 用 不 同 采样 方法 将 导致 隐藏 状态 初始 化 的 不 同 。 相 关 讨 论 可 参考 6.3 节 。 


另外 ， 考 虑 到 后 面 将 介绍 的 其 他 循环 神经 网 络 ， 为 了 更 通用 ， 这 里 的 函数 实现 更 长 一 些 。 
In [11]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens, 
vocab_size, ctx, corpus_indices, idx_to_char, 
char_to_idx, is_random_iter, num_epochs, num_steps, 
lr, clipping_theta, batch_size, pred_period, 
pred_len, prefixes): 
if is_random_iter: 
data_iter_fn = d2l.data_iter_random 
else: 
data_iter_fn = d2l.data_iter_consecutive 
params = get_params() 
loss = gloss.SoftmaxCrossEntropyLoss() 


for epoch in range(num_epochs) : 
if not is_random_iter: # 如 使 用 相 邻 采样 ， 在 epoch 开 始 时 初始 化 隐藏 状态 
state = init_rnn_state(batch_size, num_hiddens, ctx) 
L_sum, n, start = 0.0, 0, time.time() 
data_iter = data_iter_fn(corpus_indices, batch_size, num_steps, ctx) 
for X, Y in data_iter: 


6.4 ”循环 神经 网 络 的 从 零 开 始 实现 + 163° 


if is_random_iter: # 如 使 用 随机 采样 ， 在 每 个 小 批量 更 新 前 初始 化 隐藏 状态 
state = init_rnn_state(batch_size, num_hiddens, ctx) 
else: # 否则 需要 使 用 detach 函 数 从 计算 图 分 离 隐藏 状态 
for s in state: 
s.detach() 
with autograd.record(): 
inputs = to_onehot(X, vocab_size) 
# outputs 有 num_steps 个 形状 为 (batch_size，vocab_size) 的 和 矩阵 
(outputs, state) = rnn(inputs, state, params) 
# 连结 之 后 形状 为 (num_steps * batch_size, vocab_size) 
outputs = nd.concat(*outputs, dim=0) 
# Y 的 形状 是 (batch_size，num_steps) ， 转 置 后 再 变 成 长 度 为 
# batch * num_steps 的 向 量 ， 这 样 跟 输出 的 行 一 一 对 应 
y = Y.T.reshape((-1,)) 
# PAZLAR ARAFIN BRE 
l = loss(outputs, y).mean() 
L. backward () 
grad_clipping(params, clipping_theta, ctx) # 裁剪 梯度 
d2l.sgd(params, lr, 1) # 因为 误差 已 经 取 过 均值 ， 梯 度 不 用 再 做 平均 
L_sum += L.asscalar() * y.size 
n += y.size 


if (epoch + 1) % pred_period == 
print('epoch %d, perplexity %f, time %.2f sec' % ( 
epoch + 1, math.exp(l_sum / n), time.time() - start)) 
for prefix in prefixes: 
print(' -', predict_rnn( 
prefix, pred_len, rnn, params, init_rnn_state, 
num_hiddens, vocab_size, ctx, idx_to_char, char_to_idx) ) 


6.4.8 训练 模型 并 创作 歌词 


现在 我 们 可 以 训练 模型 了 。 首 先 ， 设 置 模型 超 参数 。 我 们 将 根据 前 级 “分 开 ” 和 “不 分 开 ” 
分 别 创作 长 度 为 50 个 字符 〈 不 考虑 前 缀 长 度 ) 的 一 段 歌词 。 我 们 每 过 50 个 迭代 周期 便 根据 当 
前 训练 的 模型 创作 一 段 歌词 。 


In [12]: num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, le2, le-2 
pred_period, pred_len, prefixes = 50, 50, ['DF', '#RF'] 


下 面 采 用 随机 采样 训练 模型 并 创作 歌词 。 


In [13]: train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens, 
vocab_size, ctx, corpus_indices, idx_to_char, 
char_to_idx, True, num_epochs, num_steps, lr, 
clipping_theta, batch_size, pred_period, pred_len, 
prefixes) 
epoch 50, perplexity 69.992022, time 0.25 sec 
- DH 我 不 要 再 不 能 不 知 再 你 不 么 一 九 四 我 给 我 别 你 我 别 你 的 我 疯狂 的 可 爱 女 人 坏 要 的 让 我 疯狂 的 可 
- 不 分 开 我 想 想 你 想 你 不 知 哈 你 给 我 别 你 的 让 我 疯狂 的 可 爱 女 人 坏 柔 的 让 我 疯狂 的 可 爱 女人 
一 “” 坏 桑 的 让 我 疯狂 的 

epoch 100, perplexity 9.871265, time 0.25 sec 
- 分 开 我 想 想 这 样 活 世 不 着 一 直 走 我 想 就 这 样 牵 着 你 的 手 不 放 开 爱 可 不 能 够 永 一 使 到 我 说 你 的 让 我 无 的 
- 不 分 开 BARR ”有 不 的 事 丽 我 不 能 再 想 我 不 我 不 我 不 我 不 我 不 我 不 我 不 我 不 我 不 我 不 我 
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epoch 150, perplexity 2.844756, time 0.24 sec 
- 分 开 有 杰 的 美丽 在 我 家 乡 的 娘 沉默 娘子 却 依 | 日 每 日 折 一 梳 杨 柳 在 小 村 的 溪 边 河口 默默 等 著 我 娘子 依 | 晶 每 
- 不 分 开 吗 我 后 能 爸 你 打 我 妈 这 样 我 后 要 听 SRA 有 数 怎么 停 老 不 苦 URE 是 属 了 的 信 代 的 墙 都 还 着 
epoch 200, perplexity 1.586915, time 0.25 sec 
- 分 开 不 想 用 你 心仪 唱 多 年 以 后 还 是 让 人 难过 心 伤 透 娘子 她 人 在 江南 等 我 泪 不 休 语 沉默 娘子 她 人 在 江南 
- 不 分 开 扫 把 的 胖 女巫 用 拉丁 文 念 完 语 啦 啦 鸣 她 养 的 黑 猫 笑 起 来 像 哭 UNS 一 根 我 早 在 寺 上 吗 的 溪 一 口 老 
epoch 250, perplexity 1.297808, time 0.24 sec 
- BF 不 只 好 一 给 四 颗 三 颗 四 步 望 著 天 看 星星 一 颗 两 颗 三 颗 四 颗 连 成 线 背 著 背 游荡 在 蓝 后 还 是 让 人 难过 
- 不 分 开 期 我 不 能 再 想 我 不 我 不 我 不 能 爱情 走 的 太 快 就 像 龙卷风 不 能 承受 我 已 无 处 可 租 我 不 要 再 想 我 不 要 


接 下 来 采用 相 邻 采样 训练 模型 并 创作 歌词 。 


In [14]: train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens, 
vocab_size, ctx, corpus_indices, idx_to_char, 
char_to_idx, False, num_epochs, num_steps, lr, 
clipping_theta, batch_size, pred_period, pred_len, 
prefixes) 


epoch 50, perplexity 62.419301, time 0.24 sec 
- 分 开 我 想 要 你 的 溪 边 我 想 就 的 爱 写 在 人 坏 坏 的 让 我 疯狂 的 可 爱 女 人 坏 坏 的 让 我 疯狂 的 可 爱 女人 PRATER 
- 不 分 开 我 不 要 你 你 谁 了 双 我 想 一 直 如 果 用 人 如 果 用 人 如 果 用 人 如 果 用 人 如 果 用 人 如 果 用 人 如 果 用 人 
epoch 100, perplexity 7.271332, time 0.24 sec 
- 分 开 我 给 了 这 样 “没有 你 在 我 有 多 烦 熬 多 难 我 想 著 你 你 我 想 外 的 溪 边 我 默 店 够 二 三 两 银 够 不 够 景色 入 秋 
- ASH 我 给 就 的 前 活 我 知 你 生 不 我 的 想 头 你 什么 瞎 不 是 你 不 想 活 说 你 怎么 面 对 我 甩 开 球 我 满 院 的 怒火 我 
epoch 150, perplexity 2.092366, time 0.24 sec 
- BH 我 给 我 你 你 开 看 过 了 中 手 代 对 我 依 停留 谁 非 是 旧 诉 我 印 地 安 的 传说 还 真是 AST 什么 都 有 
- 不 分 开 觉 你 已 经 离开 我 不 知 不 觉 我 眼 了 这 节奏 后 知 后 觉 又 过 了 一 个 秋 后 和 后 觉 我 该 好 好 生活 RATE 
epoch 200, perplexity 1.301714, time 0.24 sec 
- 分 开 我 候 在 烦 生 离 不 知 尽 觉 又 脸 风 伯 事 寞 ISK 我 该 好 好 生活 我 该 好 好 生活 不 知 不 觉 你 已 经 离开 我 
- 不 分 开 觉 你 已 经 离开 在 听 像 她 今 再 也 三 里 斯 纵 瞎 说 都 说 不 听 听 痛 我 们 在 丛 革 月 印 日 止 一 切 看 远方 的 星 如 果 听 
epoch 250, perplexity 1.150178, time 0.24 sec 
- 分 开 问候 我 谁 是 我 说 分 于 的 传说 还 真是 回忆 伤 人 的 美丽 你 的 完美 主义 太 彻 底 让 我 连 恨 都 难以 下 笔 将 
- 不 分 开 觉 你 已 经 离开 我 不 知 不 觉 我 腿 了 这 节奏 后 知 后 觉 又 过 了 一 个 秋 后 知 后 觉 我 该 好 好 生活 RATE 


小 结 
© 可 以 用 基于 字符 级 循环 神经 网 络 的 语言 模型 来 生成 文本 序列 ， 例 如 创作 歌词 。 
© 当 训练 循环 神经 网 络 时 ， 为 了 应 对 梯度 爆炸 ， 可 以 裁剪 梯度 。 
© RRR RTA A BRM BGE HS FF 0910. 


练习 


(1) 调节 超 参数 ， 观 察 并 分 析 对 运行 时 间 、 困 惑 度 以 及 创作 歌词 的 结果 造成 的 影响 。 

(2) 不 载 剪 梯度 ， 运 行 本 节 中 的 代码 ， 结 果 会 怎样 ? 

(3) 将 pred_period 变量 设 为 |， 观察 未 充分 训练 的 模型 (困惑 度 高 ) 是 如 何 创 作 歌 词 的 。 
你 获得 了 什么 启发 ? 

(4) 将 相 邻 采样 改 为 不 从 计算 图 分 离 隐藏 状态 ， 运 行 时 间 有 没有 变化 ? 

(5) 将 本 节 中 使 用 的 激活 函数 替换 成 ReLU， 重 复 本 节 的 实验 。 
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6.5 ”循环 神经 网 络 的 简洁 实现 


本 市 将 使 用 Gluon 来 更 简洁 地 实现 基于 循环 神经 网 络 的 语言 模型 。 首 [al 
先 ， 我 们 读 取 周 杰 伦 专辑 歌词 数据 集 。 


In [1]: import d21lzh as d21l 
import math 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import loss as gloss, nn, rnn 
import time 







of 


(corpus_indices, char_to_idx, idx_to_char, 
vocab_size) = d2l.load_data_jay_lyrics() 


6.5.1 定义 模型 


Gluon 的 rnn 模块 提供 了 循环 神经 网 络 的 实现 。 下 面 构造 一 个 含 单 隐藏 层 、 隐 藏 单 元 个 数 
为 256 的 循环 神经 网 络 层 rnn_Layer， 并 对 权重 做 初始 化 。 
In [2]: num_hiddens = 256 
rnn_layer = rnn.RNN(num_hiddens) 
rnn_lLayer.initialize() 
接 下 来 ， 调 用 rnn_layer 的 成 员 函 数 begin_state 来 返回 初始 化 的 隐藏 状态 列表 。 它 有 
一 个 形状 为 (隐藏 层 个 数 , 批量 大 小 , 隐藏 单元 个 数 ) 的 元 素 。 
In [3]: batch_size = 2 


state = rnn_layer.begin_state(batch_size=batch_size) 
state[0].shape 


Out[3]: (1, 2, 256) 


与 上 一 节 中 实现 的 循环 神经 网 络 不 同 ， 这 里 rnn_layer 的 输入 形状 为 (时间 步 数 ， 批 量 大 小 ， 
输入 个 数 )， 其 中 输入 个 数 即 one-hot 回 量 长 度 〈 词 典 大 小 )。 此 外 ，rnn_tLayer 作为 Gluon 的 rnn. 
RNN 实例 ， 在 前 癌 计 算 后 会 分 别 返回 输出 和 隐藏 状态 ， 其 中 输出 指 的 是 隐藏 层 在 各 个 时 间 步 上 计 
算 并 输出 的 隐藏 状 态 ， 它 们 通常 作为 后 续 输 出 层 的 输入 。 需 要 强调 的 是 ， 该 “输出 ”本 身 并 不 涉 
及 输出 层 计 算 ， 形 状 为 (时间 步 数 , 批量 大 小 , 隐藏 单元 个 数 )。 而 rnn.RNN 实例 在 前 向 计算 返回 的 
隐 荐 状态 指 的 是 隐藏 层 在 最 后 时 间 步 的 可 用 于 初始 化 下 一 时 间 步 的 隐藏 状态 : 当 隐 藏 层 有 多 层 时 ， 
每 一 层 的 隐藏 状态 都 会 记录 在 该 变量 中 ， 对 于 像 长 短期 记忆 这 样 的 循环 神经 网 络 ， 该 变量 还 会 包 
含 其 他 信息 。 我 们 会 在 6.8 节 和 6.9 节 分 别 介绍 长 短期 记忆 和 深度 循环 神经 网 络 。 

In [4]: num_steps = 35 

X = nd.random.uniform(shape=(num_steps, batch_size, vocab_size)) 


Y, state_new = rnn_layer(X, state) 
Y.shape, lLen(state_new), state_new[0].shape 


Out[4]: ((35, 2, 256), 1, (1, 2, 256)) 
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接 下 来 我 们 继承 Block 类 来 定义 一 个 完整 的 循环 神经 网 络 。 它 首先 将 输入 数据 使 用 one- 
hot 向 量 表示 后 输入 到 rnn_layer 中 ， 然 后 使 用 全 连接 输出 层 得 到 输出 。 输 出 个 数 等 于 词典 大 


小 vocab_size. 


In [5]: # 本 类 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
class RNNModel(nn.Block): 


6.5.2 M 





def 


def 


def 


练 模型 


__init__(self, rnn_layer, vocab_size, *xkwargs): 
super (RNNModel, self).__init__(**kwargs) 
self.rnn = rnn_layer 

self.vocab_size = vocab_size 

self.dense = nn.Dense(vocab_size) 


forward(self, inputs, state): 

# 将 输入 转 置 成 (num_steps，batch_size) 后 获取 one-hot 向 量 表示 

X = nd.one_hot(inputs.T, self.vocab_size) 

Y, state = self.rnn(X, state) 

# 全 连接 层 会 首先 将 Y 的 形状 变 成 (num_steps * batch_size，num_hiddens) ， 它 的 输出 
# 形状 为 (num_steps * batch_size, vocab_size) 

output = self.dense(Y.reshape((-1, Y.shape[-1]))) 

return output, state 


begin_state(self, xargs, **xkwargs): 
return self.rnn.begin_state(*args, *xkwargs) 


同 6.4 FE, PRE MPS AA. KAS EX BEF BW IR) oh A) 9 1 Be TR AS 
的 函数 接口 。 
In [6]: # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 


def predict_rnn_gluon(prefix, num_chars, model, vocab_size, ctx, idx_to_char, 


char_to_idx): 


# 使 用 mode1 的 成 员 函 数 来 初始 化 隐藏 状态 
state = model.begin_state(batch_size=1, ctx=ctx) 
output = [char_to_idx[prefix[0]]] 


for t in range(num_chars + len(prefix) - 1): 
X = nd.array([output[-1]], ctx=ctx).reshape((1, 1)) 
(Y, state) = model(X, state) # 前 向 计算 不 需要 传 入 模型 参数 
if t < len(prefix) - 1: 
output.append(char_to_idx[prefix[t + 1]]) 
else: 
output.append(int(Y.argmax(axis=1).asscalar())) 
return ''.join([idx_to_char[i] for i in output]) 


让 我 们 使 用 权重 为 随机 值 的 模型 来 预测 一 次 。 


in ETIS 


Out[7]: 


ctx = d21l.try_gpu() 


model = 


RNNModel(rnn_layer, vocab_size) 


model.initialize(force_reinit=True, ctx=ctx) 
predict_rnn_gluon('s3jF#f', 10, model, vocab_size, ctx, idx_to_char, char_to_idx) 


' 分 开 否 得 村 死 蜡 颗 牛 义 爱 婆 ， 
接 下 来 实现 训练 函数 。 算 法 同 6.4 节 一 样 ， 但 这 里 只 使 用 了 相 邻 采样 来 读 取 数据 。 
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In [8]: # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 
def train_and_predict_rnn_gluon(model, num_hiddens, vocab_size, ctx, 

corpus_indices, idx_to_char, char_to_idx, 
num_epochs, num_steps, lr, clipping_theta, 
batch_size, pred_period, pred_len, prefixes): 

loss = gloss.SoftmaxCrossEntropyLoss() 

model.initialize(ctx=ctx, force_reinit=True, init=init.Normal(0.01) ) 

trainer = gluon.Trainer(model.collect_params(), 'sgd', 

{'learning_rate': lr, 'momentum': 0, 'wd': 0}) 


for epoch in range(num_epochs) : 
L_sum, n, start = 0.0, 0, time.time() 
data_iter = d2l.data_iter_consecutive( 
corpus_indices, batch_size, num_steps, ctx) 
state = model.begin_state(batch_size=batch_size, ctx=ctx) 
for X, Y in data_iter: 
for s in state: 
s.detach() 
with autograd.record(): 
(output, state) = model(X, state) 
y = Y.T.reshape((-1,)) 
l = loss(output, y).mean() 
L.backward() 
# 梯度 裁剪 
params = [p.data() for p in model.collect_params().values() ] 
d2i.grad_clipping(params, clipping_theta, ctx) 
trainer.step(1) # 因为 已 经 误差 取 过 均值 ， 梯 度 不 用 再 做 平均 
l_sum += l.asscalar() * y.size 
n += y.size 


if (epoch + 1) % pred_period == 
print('epoch %d, perplexity %f, time %.2f sec' % ( 
epoch + 1, math.exp(l_sum / n), time.time() - start)) 
for prefix in prefixes: 
print(' -', predict_rnn_gluon( 
prefix, pred_len, model, vocab_size, ctx, idx_to_char, 
char_to_idx) ) 


使 用 和 6.4 节 实 验 中 一 样 的 超 参 数 来 训练 模型 。 


In [9]: num_epochs, batch_size, lr, clipping_theta = 250, 32, le2, le-2 
pred_period, pred_len, prefixes = 50, 50, ['DF', '#RF'] 
train_and_predict_rnn_gluon(model, num_hiddens, vocab_size, ctx, 

corpus_indices, idx_to_char, char_to_idx, 
num_epochs, num_steps, lr, clipping_theta, 
batch_size, pred_period, pred_len, prefixes) 


epoch 50, perplexity 82.062816, time 0.05 sec 
- 分 开 我 想 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 
- ADF 我 想 我 这 我 你 的 让 我 感 狂 的 可 爱 女 人 坏 坏 的 让 我 疯狂 的 可 爱 女 人 坏 坏 的 让 我 疯狂 的 可 爱 女人 
一 “” 坏 坏 的 让 我 
epoch 100, perplexity 13.982722, time 0.05 sec 
- DH 娘子 的 没有 你 的 完美 你 的 爱 空 我 想 定 有 些 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 
- ADA WAZE 我 马 儿 努 些 我 不 能 再 不 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 不 能 再 想 我 
epoch 150, perplexity 4.328425, time 0.05 sec 
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- ADFAL ene te 演戏 Pear tree 
> ÆRE 
epoch 200, perplexity 2.544455, time 0.05 sec 
- 分 开 平 候 她 | 昌 属 于 那 年 代 墙 黑 得 看 留 都 平常 话 我 手眼 的 生活 不 知 依依 满 脸 风霜 EARE 没 风 的 梦 
- ADF 不 要 再 我 环绕 大 自然 WEN 开始 共渡 每 一 天 FAF 一 步 两 步 三 步 四 步 望 著 天 看 星星 一 颗 两 颗 三 颗 四 
epoch 250, perplexity 1.840158, time 0.05 sec 
- DF DAS 是 属于 那 年 代 日 墙 黑 瓦 的 淡淡 的 忧伤 消失 的 旧时 光 一 九 四 三 回头 看 的 片段 BEM 老 
- ADF 不 要 再 一 直 真 我 想 永 文 样 率 着 你 的 手 不 放 开 爱 可 不 可 以 简 简 单单 没有 伤害 你 靠 着 我 的 肩膀 你 在 我 


小 结 
© Gluon 的 rnn 模块 提供 了 循环 神经 网 络 层 的 实现 。 
e Gluon 的 rnn.RNN 实例 在 前 向 计算 后 会 分 别 返 回 输出 和 隐藏 状态 。 该 前 向 计算 并 不 涉及 输 
出 层 计 算 。 


练习 
564 节 的 实现 进行 比较 ， 看 看 Gluon 的 实现 是 不 是 运行 速度 更 快 ? 如 果 你 觉得 差别 明显 ， 试 
着 找 找 原因 。 





6.6 ”通过 时 间 反 向 传播 


如 果 读 者 做 了 6.4 节 的 练习 ， 就 会 发 现 ， 如 果 不 裁剪 梯度 ， 模 型 将 天 
法 正常 训练 。 为 了 深刻 理解 这 一 现象 ， 本 节 将 介绍 循环 神经 网 络 中 梯度 的 
计算 和 存储 方法 ， 即 通过 时 间 反 向 传播 (back-propagation through time). 


我 们 在 3.14 节 中 介绍 了 神经 网 络 中 梯度 计算 与 存储 的 一 般 思 路 ， 并 i EF 
强调 正 同 传播 和 反 回 传播 相互 依赖 。 正 同 传 播 在 循环 神经 网 络 中 比较 直观 ， 而 通过 时 间 反 疝 传 
播 其 实 是 反问 传播 在 循环 神经 网 络 中 的 具体 应 用 。 我 们 需要 将 循环 神经 网 络 按时 间 步 展开 ， 从 
而 得 到 模型 变量 和 参数 之 间 的 依赖 关系 ， 并 依据 链 式 法 则 应 用 反 回 传播 计算 并 存储 梯度 。 





6.6.1 定义 模型 


简单 起 见 ， 我 们 考虑 一 个 无 偏差 项 的 循环 神经 网 络 ， 且 激活 函数 为 恒 等 映 射 G(x) = x )。 
设 时 间 步 t 的 输入 为 单 样 本 x, e RR“"， 标 签 为 yy,， 那 么 隐藏 状态 h, c R" 的 计算 表达 式 为 


h, = WX, + WM, 


其 中 Wy ¢R 和 Wi, ER” 是 隐藏 层 权 重 参数 。 设 输出 层 权重 参数 W p RO, WD chy 
输出 层 变 量 w ERHAN 


0, = Wnh, 


设 时 间 步 t 的 损失 为 Lo, y,)。 时 间 步 数 为 了 的 损失 函数 工 定 义 为 


6.6 通过 时 间 反 向 传播 + 169° 


l 


F 
L=7 2, 05%) 
t=] 


我 们 将 工 称 为 有 关 给 定时 间 步 的 数据 样本 的 目标 函数 ， 并 在 本 节 后 续 讨 论 中 简称 为 目标 函数 。 


6.6.2 ”模型 计算 图 


为 了 可 视 化 循环 神经 网 络 中 模型 变量 和 参数 在 计算 中 的 依赖 关系 ， 我 们 可 以 绘制 模型 计算 
图 ， 如 图 6-3 所 示 。 例 如 ， 时 间 步 3 的 隐藏 状态 h 的 计算 依赖 模型 参数 多 ,,、WW,;、 上 一 时 间 步 


隐藏 状态 A, 以 及 当前 时 间 步 输入 xa。 






图 6-3 时 间 步 数 为 3 的 循环 神经 网 络 模型 计算 中 的 依赖 关系 。 方 框 代 表 变 量 〈 无 阴影 ) 
或 参数 (有 阴影 )， 圆 圈 代 表 运 算 符 


6.6.3 Bik 


刚刚 提 到 ， 图 6-3 PARR SR EW n Wa MWp 5 3.14 节 中 的 类 似 ， 训 练 模型 通常 
需要 模型 参数 的 梯度 OL / OW, > OL/ OW, 和 OL/OW,,0 HVE 6-3 中 的 依赖 关系 ， 我 们 可 以 按 
照 其 中 箭头 所 指 的 反方 向 依次 计算 并 存储 梯度 。 为 了 表述 方便 ， 我 们 依然 采用 3.14 节 中 表达 
链 式 法 则 的 运算 符 prod。 
首先 ， 目 标 函 数 有 关 各 时 间 步 输出 层 变 量 的 梯度 OL / 00, E R! 很 容易 计算 : 
OL (0,, y,) 
00, = T - 00, 
下 面 ， 我 们 可 以 计算 目标 函数 有 关 模 型 参数 所; 的 梯度 OL/OW,, RO". WARE 6-3, 工 通过 
01,…, O07 依赖 到 ,,。 依 据 链 式 法则 ， 


T T 
er S pod =, |= S47 
2 5 alr Oo, OW,, } “=! 00, 


其 次 ， 我 们 注意 到 隐藏 状态 之 间 也 存在 依赖 关系 。 在 图 6-3 中 , 工 只 通过 or 依赖 最 终 时 


间 步 了 的 隐藏 状态 h-。 因 此 ， 我 们 先 计 算 目 标 函 数 有 关 最 终 时 间 步 隐藏 状态 的 梯度 OL / Oh, < R". 
依据 链 式 法 则 ， 我 们 得 到 
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a coal 2 aL Se). x OE 
oh, ae} Oey 

Be RRM FAT <T, ÆR 6-3 F, 工 通过 ha 和 o, 依赖 六 。 依 据 链 式 法 则 ， 目 标 函 数 
有 关 时 间 步 t<7 的 隐藏 状态 的 梯度 OL / Oh, e R" 需要 按照 时 间 步 从 大 到 小 依次 计算 : 


as wa rc i}. wal & ow A pa 


; : +W, 一 一 
oh, Oh,,,” Oh, 60,’ oh, war. ENG eT 


i LI AAAS RIF, SERNA I< t <7, RITT AE H RRRA Be BTR AS i EY 
通 项 公式 











OT +1-i 


由 上 式 中 的 指数 项 可 见 ， sa Sb 了 较 大 或 者 时 间 步 1 较 小 时 ， 目 标 函 数 有 关 隐 藏 状态 
的 梯度 较 容 易 出 现 衰减 和 爆炸 。 这 也 会 影响 其 他 包含 GL/6h 项 的 梯度 ， 例 如 隐藏 层 中 模型 参 
数 的 梯度 OL / OW, E R® Fl AL/0W,, ER”. ÆR 6-3 中 ,， 工 通过 甩 ,…, hy 依赖 这 些 模型 参数 。 
依据 链 式 法 则 ， 我 们 有 











我 们 已 在 3.14 节 里 解释 过 ， 每 次 迭代 中 ， 我 们 在 依次 计算 完 以 上 各 个 梯度 后 ， 会 将 它们 
存储 起 来 ， 从 而 避免 重复 计算 。 例 如 ， 由 于 隐藏 状态 梯度 OL/ Oh, 被 计算 和 存储 ， 之 后 的 模型 
参数 梯度 OL / OW, 和 OL/ OW, 的 计算 可 以 直接 读 取 OL/Oh, 的 值 ， 而 无 须 重 复 计算 它们 。 此 外 ， 
反 疝 传播 中 的 梯度 计算 可 能 会 依赖 变量 的 当前 值 。 它 们 正 是 通过 正 同 传播 计算 出 来 的 。 举 例 来 
说 ， 参 数 梯度 OL/ OW, 的 计算 需要 依赖 隐藏 状态 在 时 间 步 +1=0,…,7T 一 1 的 当前 值 h (ho 是 初 
始 化 得 到 的 )。 这 些 值 是 通过 从 输入 层 到 输出 层 的 正 问 传 播 计算 并 存储 得 到 的 。 


小 结 
© 通过 时 间 反 向 传播 是 反 向 传播 在 循环 神经 网 络 中 的 具体 应 用 。 
© 当时 间 步 数 较 大 或 者 时 间 步 较 小 时 ， 循 环 神经 网 络 的 梯度 较 容易 出 现 衰 减 或 爆炸 。 





6.7 JAAA (GRU) 


6.6 节 介 绍 了 循环 神经 网 络 中 的 梯度 计算 方法 。 我 们 发 现 ， 当 时 间 步 数 较 大 或 者 时 间 步 较 
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小 时 ， 循 环 神经 网 络 的 梯度 较 容 易 出 现 衰减 或 爆炸 。 虽 然 裁剪 梯度 可 以 应 
对 梯度 爆炸 ， 但 无 法 解决 梯度 衰减 的 问题 。 通 常 由 于 这 个 原因 ， 循 环 神经 
网 络 在 实际 中 较 难 捕捉 时 间 序 列 中 时 间 步 距离 较 大 的 依赖 关系 。 


门 控 循环 神经 网 络 (gated recurrent neural network) 的 提出 ， 正 是 为 了 
更 好 地 捕捉 时 间 序 列 中 时 间 步 距离 较 大 的 依赖 关系 。 它 通过 可 以 学 习 的 门 
来 控制 信息 的 流动 。 其 中 ， 门 控 循 环 单元 (gated recurrent unit, GRU) 是 [m] 
— FFs FAS TIRAN 1 AR A TRARA P28 HE 6.8 节 中 介绍 。 





6.7.1 JERNET 

下 面 将 介绍 门 控 循环 单元 的 设计 。 它 引入 了 重 置 门 和 更 新 门 的 概念 ， 从 而 修改 了 循环 神经 
网 络 中 隐藏 状态 的 计算 方式 。 

1， 重 置 门 和 更 新 门 


如 图 6-4 所 示 ， 门 控 循环 单元 中 的 重 置 门 (reset gate) 和 更 新 门 (update gate) 的 输入 均 
为 当前 时 间 步 输入 X, 与 上 一 时 间 步 隐藏 状态 A, ， 输 出 由 激活 函数 为 sigmoid 函数 的 全 连接 
层 计 算得 到 。 


隐藏 状态 : H, 


重 置 门 : 更 新 门 : 
R Z 


t t 
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6-4 “ 门 控 循 环 单元 中 重 置 门 和 更 新 门 的 计算 


具体 来 说 ， 假 设 隐藏 单元 个 数 为 h， 给 定时 间 步 1 的 小 批量 输入 X, eR”! (样本 数 为 n， 
输入 个 数 为 4) 和 上 一 时 间 步 隐藏 状态 He R™. EEN R eR 和 更 新 门 Z,e RR” 的 计 
算 如 下 : 

R, s o(X,H y +H, Wn +b,) 
Z,=0(X,H,, +H, W, +b,) 
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HRW ,,W ER flW,,,W,, cR! 是 权重 参数 ，b,,b, e RR 是 偏差 参数 。3.8 节 中 介绍 过 ， 
sigmoid 函数 可 以 将 元 素 的 值 变 换 到 0 和 1 Zila). At, BA) R 和 更 新 门 Z, 中 每 个 元 素 的 
值 域 都 是 [0, 1]。 


2. 候选 隐藏 状态 


接 下 来 ， 门 控 循 环 单 元 将 计算 候选 隐藏 状态 来 辅助 稍 后 的 隐藏 状态 计算 。 如 图 6-5 所 示 ， 
我 们 将 当前 时 间 步 重 置 门 的 输出 与 上 一 时 间 步 隐藏 状态 做 按 元 系 乘法 (符号 为 @)。 如 果 重 置 
门 中 元 素 值 接近 0， 那 么 意味 看 重 置 对 应 隐 兰 状态 元 素 为 0， 即 丢弃 上 一 时 间 步 的 隐藏 状态 。 
如 果 元 素 值 接近 1， 那 么 表示 保留 上 一 时 间 步 的 隐藏 状态 。 然 后 ， 将 按 元 素 乘法 的 结果 与 当前 
时 间 步 的 输入 连结 ， 再 通过 含 激活 函数 tanh 的 全 连接 层 计算 出 候选 隐藏 状态 ， 其 所 有 元 素 的 
值 域 为 [-1, 1] 


隐藏 状态 : H, 





重 置 门 : Bl): 候选 隐藏 状态 : 
R Z H 


t t t 





输入 : X, 


Gl] 全 连接 县 和 激活 区 数 Q 按 元 素 运 算 待 1. 复制。 -了 连结 


6-5 “ 门 控 循 环 单 元 中 候选 隐藏 状态 的 计算 。 这 里 的 @ 〇 是 按 元 素 乘法 


具体 来 说 ， 时 间 步 1 的 候选 隐藏 状态 A, e R” 的 计算 为 


~ 


H, = tanh(X,W,,, +(R, O H,_,)W,,, +b) 


其 中 Wp e R” AW, ER”! 是 权重 参数 ，b eR” 是 偏差 参数 。 从 上 面 这 个 公式 可 以 看 出 ， 
重 置 门 控 制 了 上 一 时 间 步 的 隐藏 状态 如 何 流入 当前 时 间 步 的 候选 隐藏 状态 ， 而 上 一 时 间 步 的 隐 
藏 状态 可 能 包含 了 时 间 序 列 截至 上 一 时 间 步 的 全 部 历史 信息 。 因 此 ， 重 置 门 可 以 用 来 丢弃 与 预 
测 无 关 的 历史 信息 。 


3. 隐藏 状态 


最 后 ， 时 间 步 1 的 隐藏 状态 H, e R” 的 计算 使 用 当前 时 间 步 的 更 新 门 Z, 来 对 上 一 时 间 步 
的 隐藏 状态 H, ， 和 当前 时 间 步 的 候选 隐藏 状态 H, 做 组 合 : 


H,=Z,OH,,+(-Z,)OH, 
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值得 注意 的 是 ， 更 新 门 可 以 控制 隐藏 状态 应 该 如 何 被 包含 当前 时 间 步 信息 的 候选 隐藏 状态 
所 更 新 ， 如 图 6-6 所 示 。 假 设 更 新 门 在 时 间 步 + 到 + (t'<t) 之 间 一 直 近 似 1。 那 么 ， 在 时 间 步 
t 到 上 之 间 的 输入 信息 几乎 没有 流入 时 间 步 上 的 隐藏 状态 及 。 实 际 上 ， 这 可 以 看 作 是 较 早 时 刻 
的 隐藏 状态 Hr- 一 直通 过 时 间 保 存 并 传递 至 当前 时 间 步 to 这 个 设计 可 以 应 对 循环 神经 网 络 中 
的 梯度 衰减 问题 ， 并 更 好 地 捕捉 时 间 序 列 中 时 间 步 距离 较 大 的 依赖 关系 。 


隐藏 状态 : H, 





输入 : X, 


GM essems O ecxuwe J. sw 。 -了 连结 
6-6“ 门 控 循 环 单元 中 隐藏 状态 的 计算 。 这 里 的 O 是 按 元 素 乘法 
我 们 对 门 控 循 环 单元 的 设计 稍 作 总 结 : 


© 重 置 门 有 助 于 捕 换 时 间 序 列 里 短期 的 依赖 关系 ; 
。 更 新 门 有 助 于 捕捉 时 间 序 列 里 长 期 的 依赖 关系 。 


6.7.2 读 取 数据 集 


为 了 实现 并 展示 门 控 循 环 单元 ， 下 面 依然 使 用 周杰伦 歌词 数据 集 来 训练 模型 作词 。 这 里 除 
门 控 循 环 单元 以 外 的 实现 已 在 6.4 节 中 介绍 过 。 以 下 为 读 取 数据 集 部 分 。 


In [1]: import d2Lzh as d2l 
from mxnet import nd 
from mxnet.gluon import rnn 
(corpus_indices, char_to_idx, idx_to_char, 
vocab_size) = d2l.load_data_jay_lyrics() 


6.7.3 ”从 零 开 始 实现 
我 们 先 介绍 如 何 从 零 开 始 实现 门 控 循环 单元 。 


1. 初始 化 模型 参数 
下 面 的 代码 对 模型 参数 进行 初始 化 。 超 参数 num_hiddens 定义 了 隐藏 单元 的 个 数 。 
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In [2]: num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size 
ctx = d2l.try_gpu() 


def get_params(): 
def _one(shape): 
return nd.random.normal(scale=0.01, shape=shape, ctx=ctx) 


def three(): 
return (_one((num_inputs, num_hiddens)), 
_one((num_hiddens, num_hiddens)), 
nd.zeros(num_hiddens, ctx=ctx) ) 


W_xz, W_hz, b_z = _three() # 更 新 门 参数 
W_xr, W_hr, b_r = _three() # 重 置 门 参数 
W_xh, W_hh, b_h = _three() # 候选 隐藏 状态 参数 
# 输出 层 参数 
W_hq = _one((num_hiddens, num_outputs) ) 
b_q = nd.zeros(num_outputs, ctx=ctx) 
# 附 上 梯度 
params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, bq 
for param in params: 

param.attach_grad() 
return params 


2. 定义 模型 


下 面 的 代码 定义 隐藏 状态 初始 化 函数 init_gru_state。 同 6.4 节 中 定义 的 init_rnn_ 
state 函数 一 样 ， 它 返回 由 一 个 形状 为 (批量 大 小 ,隐藏 单元 个 数 ) 的 值 为 0 的 NDArray 组 成 
的 元 组 。 


In [3]: def init_gru_state(batch_size, num_hiddens, ctx): 
return (nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx), ) 


下 面 根据 门 控 循 环 单元 的 计算 表达 式 定 义 模型 。 


In [4]: def gru(inputs, state, params): 

W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params 

H, = state 

outputs = [] 

for X in inputs: 
Z = nd.sigmoid(nd.dot(X, W_xz) + nd.dot(H, W_hz) + b_z) 
R = nd.sigmoid(nd.dot(X, W_xr) + nd.dot(H, W_hr) + b_r) 
H_tilda = nd.tanh(nd.dot(X, W_xh) + nd.dot(R * H, W_hh) + b_h) 
H= ZxĦ+ (1 - Z) * H_tilda 
Y = nd.dot(H, W_hq) + b_q 
outputs .append (Y) 

return outputs, (H,) 


3. 训练 模型 并 创作 歌词 
我 们 在 训练 模型 时 只 使 用 相 邻 采样 。 设 置 好 超 参数 后 ， 我 们 将 训练 模型 并 根据 前 缀 “分 
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开 ” 和 “不 分 开 ” 分 别 创作 长 度 为 50 个 字符 的 一 段 歌词。 


In [5]: num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, le2, le-2 
pred_period, pred_len, prefixes = 40, 50, ['DHF', '#aRF'] 


我 们 每 过 40 ATC ed PEAR HE SB VII A SY A Bd PE — Bc eK i] o 


In [6]: d2l.train_and_predict_rnn(gru, get_params, init_gru_state, num_hiddens, 
vocab_size, ctx, corpus_indices, idx_to_char, 
char_to_idx, False, num_epochs, num_steps, lr, 
clipping_theta, batch_size, pred_period, pred_len, 
prefixes) 


epoch 40, perplexity 150.633229, time 0.60 sec 

- 分 开 我 想 我 不 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 
- 不 分 开 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 不 我 你 
epoch 80, perplexity 32.144000, time 0.62 sec 

- DH 我 想 要 你 的 微笑 一 定 在 人 人 你 的 让 我 别 你 的 美 笑 你 爱 女 人 MRR 别 不 了 我 我 不 要 再 想 我 不 要 再 
- 不 分 开 没有 你 在 我 说 你 我 想 你 的 爱 笑 一 定 人 人 快 使 用 双 截 哼 哼哈 分 快 使 用 双 截 棍 哼 哼哈 全 快 使 用 双 
epoch 120, perplexity 4.846768, time 0.63 sec 

- 分 开 我 想 想 你 ”我 不 了 这 节 ”我 的 你 笑 不 起 不 知 不 觉 你 已 经 离开 我 不 知 不 觉 我 眼 了 这 节奏 后 知 后 觉 又 
- ADF 我 已 经 这 样 打 我 妈妈 难道 你 手 不 会 痛 吗 我 不 要 再 想 我 不 能 再 想 我 不 我 不 我 不 能 爱情 走 的 太 快 就 像 
epoch 160, perplexity 1.449507, time 0.60 sec 

- 分 开 我 想 想 这 样 KASIM RAMRRAS MSE SURE 我 试 著 努 力 向 你 奔跑 爱 才 送 到 你 却 
~ ADF 你 已 经 离开 我 不 知 不 觉 我 中 了 这 节奏 后 知 后 觉 又 过 了 一 个 秋 后 知 后 党 我 该 好 好 生活 我 玫 好 好 生活 


6.7.4 简洁 实现 
在 Gluon 中 我 们 直接 调用 rnn 模块 中 的 GRU 类 即 可 。 


In [7]: gru_layer = rnn.GRU(num_hiddens) 
model = d2l.RNNModel(gru_layer, vocab_size) 
d21l.train_and_predict_rnn_gluon(model, num_hiddens, vocab_size, ctx, 
corpus_indices, idx_to_char, char_to_idx, 
num_epochs, num_steps, lr, clipping_theta, 
batch_size, pred_period, pred_len, prefixes) 


epoch 40, perplexity 153.725809, time 0.07 sec 
- 分 开 我 想 你 的 让 我 我 想 你 的 让 我 我 想 你 的 让 我 我 想 你 的 让 我 我 想 你 的 让 我 我 想 你 的 让 我 我 想 你 的 让 我 
- 不 分 开 我 想 你 的 上 我 我 想 你 的 让 我 我 想 你 的 让 我 我 根 你 的 让 我 我 根 你 的 让 我 我 想 你 的 让 我 我 想 你 的 i 上 我 
epoch 80, perplexity 34.257549, time 0.07 sec 
- DA 我 想 要 这 样 我 不 要 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 
- ADF 我 不 要 再 想 我 不 要 我 不 了 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 再 想 我 不 要 
epoch 120, perplexity 5.149150, time 0.07 sec 
- 分 开 “我 想 带 这样 牵 着 你 的 手 不 放 开 “ 爱 可 不 能 以 简 简 单单 没有 我 知道 你 的 脑袋 有 问题 深 便 你 爱 很 久 了 
- ADF 你 已 经 离 不 会 我 妈妈 我 说 的 话 不 甘 想 要 和 你 已 经 堡 我 想 想 你 的 微笑 每 天 想 想 和 你 你 是 我 有 难 想 我 不 
epoch 160, perplexity 1.505936, time 0.07 sec 
- DF 我 想 带 这 样 牵 着 你 的 手 不 放 开 爱 能 不 能 够 永远 单纯 没有 翡 害 我 想 带 你 骑 单 车 我 想 和 你 看 棒球 想 这 样 
- ADF 你 已 经 离开 我 不 知 不 觉 我 眼 了 这 节奏 后 知 后 觉 又 过 了 一 个 秋 EAE 我 该 好 好 生活 我 该 好 好 生活 
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门 控 循环 神经 网 络 可 以 更 好 地 捕捉 时 间 序 列 中 时 间 步 距离 较 大 的 依赖 关系 。 

门 控 循 环 单元 引入 了 门 的 概念 ， 从 而 修改 了 循环 神经 网 络 中 隐藏 状态 的 计算 方式 。 它 包括 重 
置 门 、 更 新 门 、 候 选 隐藏 状态 和 隐藏 状态 。 

重 置 门 有 助 于 捕捉 时 间 序 列 里 短期 的 依赖 关系 。 

更 新 门 有 助 于 捕捉 时 间 序 列 里 长 期 的 依赖 关系 。 


练习 

(1) 假设 时 间 步 /<t。 如 果 只 希望 用 时 间 步 + 的 输入 来 预测 时 间 步 1 的 输出 ， 每 个 时 间 步 的 重 
置 门 和 更 新 门 的 理想 的 值 是 多 少 ? 

(2) 调节 超 参 数 ， 观 察 并 分 析 对 运行 时 间 、 困 惑 度 以 及 创作 歌词 的 结果 造成 的 影响 。 

(3) 在 相同 条 件 下 ， 比 较 门 控 循环 单元 和 不 带 门 控 的 循环 神经 网 络 的 运行 时 间 。 





6.8 长 短期 记忆 (LSTM ) 





扫 码 直达 讨论 区 





6.8.1 长 短期 记忆 


LSTM 中 引入 了 3 个 门 ， 即 输入 门 (input gate), 4&1] (forget gate) 和 输出 门 Coutput 
gate)， 以 及 与 隐藏 状态 形状 相同 的 记忆 细胞 ( 某 些 文献 把 记忆 细胞 当成 一 种 特殊 的 隐藏 状态 )， 
从 而 记录 额外 的 信息 。 


1， 输 入 门 、 遗 筷 门 和 输出 门 


与 门 控 循 环 单元 中 的 重 置 门 和 更 新 门 一 样 ， 如 图 6-7 所 示 ， 长 短期 记忆 的 门 的 输入 均 为 当 
前 时 间 步 输入 X, 与 上 一 时 间 步 隐藏 状态 H,,， 输 出 由 激活 函数 为 sigmoid 函数 的 全 连接 层 计 
算得 到 。 如 此 一 来 ， 这 3 个 门 元 素 的 值 域 均 为 [0, 1]。 
具体 来 说 ， 假 设 隐 藏 单元 个 数 为 h， 给 定时 间 步 1 的 小 批量 输入 X eR” (样本 数 为 
n， 输 入 个 数 为 4) 和 上 一 时 间 步 隐藏 状态 A, e R™。 时 间 步 1 的 输入 门 IL eR’. EN 
F, e R™ 和 输出 门 O, e R” 分 别 计算 如 下 : 
I, = 0(X,W,, + H,_,W,; +b) 
F, =0(X,Wy +H, Wy +b,) 
0, = 0(X,W,,, +H, W, +5,) 


SPAY Wai Wys Wio RO" A Wi Wis Who ER" BAL BBR, bi bp, b, < 及 ”是 偏差 参数 。 


6.8 ”长 短期 记忆 (LSTM) …177… 


isl): AT]: 





DE cerams @ 按 元 素 运 算 符 1. sa T7 连结 
图 6-7 “长 短期 记忆 中 输入 门 、 遗 忘 门 和 输出 门 的 计算 





2. 候选 记忆 细胞 


接 下 来 ， 长 短期 记忆 需要 计算 候选 记忆 细胞 C,。 它 的 计算 与 上 面 介绍 的 3 个 门类 似 ， 但 使 
用 了 值 域 在 [-1, 1] 的 tanh 函数 作为 激活 函数 ， 如 图 6-8 所 示 。 


候选 记忆 
遗忘 门 : 。 输入 门 : 细胞 : 输出 门 : 
C 0 


t t t 


隐藏 状态 : 





PE 全 连接 层 和 激活 函数 按 元 素 运算 符 l. 复制 。 一 连结 


图 6-8 长 短期 记忆 中 候选 记忆 细胞 的 计算 





具体 来 说 ， 时 间 步 1 的 候选 记忆 细胞 C, e R” 的 计算 为 


C,=tanh(XW .+H,_W,.+b.,) 


Kh W, eR HW, eR” 是 权重 参数 ，b, eR” 是 偏差 参数 。 
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3. 记忆 细胞 


我 们 可 以 通过 元 素 值 域 在 [0, 1] 的 输入 门 、 遗 筷 门 和 输出 门 来 控制 隐藏 状态 中 信息 的 流动 ， 
这 一 般 也 是 通过 使 用 按 元 素 乘法 〈 符 号 为 O) 来 实现 的 。 当 前 时 间 步 记忆 细胞 C, e R” Wit 
算 组 合 了 上 一 时 间 步 记忆 细胞 和 当前 时 间 步 候选 记忆 细胞 的 信息 ， 并 通过 遗 筷 门 和 输入 门 来 控 
制 信息 的 流动 : 


C, =F, OC,_,+1,0C, 


如 图 6-9 所 示 ， 遗 态 门 控制 上 一 时 间 步 的 记忆 细胞 Ci_1 中 的 信息 是 否 传递 到 当前 时 间 步 ， 
而 输入 门 则 控制 当前 时 间 步 的 输入 X, 通过 候选 记忆 细胞 C; 如 何 流入 当前 时 间 步 的 记忆 细胞 。 如 
果 遗 忘 门 一 直 近 似 1 且 输 入 门 一 直 近 似 0， 过 去 的 记忆 细胞 将 一 直通 过 时 间 保 存 并 传递 至 当前 
时 间 步 。 这 个 设计 可 以 应 对 循环 神经 网 络 中 的 梯度 衰减 问题 ， 并 更 好 地 捕捉 时 间 序 列 中 时 间 步 
距离 较 大 的 依赖 关系 。 


记忆 细胞 : 
C 


t-l 





DE ceense O 按 元 素 运 算 符 J. sa 下 连结 
图 6-9 长 短期 记忆 中 记忆 细胞 的 计算 。 这 里 的 © 是 按 元 素 乘法 





4. 隐藏 状态 
有 了 记忆 细胞 以 后 ， 接 下 来 我 们 还 可 以 通过 输出 门 来 控制 从 记忆 细胞 到 隐藏 状态 H, e R” 
的 信息 的 流动 : 
H, = 0, © tanh(C, ) 
这 里 的 tanh 函数 确保 隐藏 状态 元 素 值 在 -1 到 1 之 间 。 需 要 注意 的 是 ， 当 输出 门 近似 1 时， 
记忆 细胞 信息 将 传递 到 隐藏 状态 供 输出 层 使 用 ， 当 输出 门 近 似 0 时 ， 记 忆 细 胞 信息 只 上 自己 保 
留 。 图 6-10 展示 了 长 短期 记忆 中 隐藏 状态 的 计算 。 
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本 aw et 


图 6-10 ”长 短期 记忆 中 隐藏 状态 的 计算 。 这 里 的 © 是 按 元 素 乘 法 





6.8.2” 读 取 数 据 集 
下 面 我 们 开始 实现 并 展示 长 短期 记忆 。 和 前 几 节 中 的 实验 一 样 ， 这 里 依然 使 用 周杰伦 歌词 
数据 集 来 训练 模型 作词 。 


In [1]: import d2Lzh as d2\ 
from mxnet import nd 
from mxnet.gluon import rnn 


(corpus_indices, char_to_idx, idx_to_char, 
vocab_size) = d2l.load_data_jay_lyrics() 


6.8.3 ”从 零 开 始 实现 
我 们 先 介绍 如 何 从 零 开始 实现 长 短期 记忆 。 


1. 初始 化 模型 参数 
下 面 的 代码 对 模型 参数 进行 初始 化 。 超 参数 num_hiddens 定义 了 隐藏 单元 的 个 数 。 


In [2]: num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size 
ctx = d2l.try_gpu() 


def get_params(): 
def _one(shape): 
return nd.random.normal(scale=0.01, shape=shape, ctx=ctx) 


def three(): 
return (_one((num_inputs, num_hiddens)), 
_one((num_hiddens, num_hiddens)), 
nd.zeros(num_hiddens, ctx=ctx)) 
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W_xi, Whi, b_i = _three() # 输入 门 参数 

W_xf, W_hf, b_f = _three() # 遗忘 门 参 数 

W_xo, W_ho, b_o = _three() # 输出 门 参 数 

W_xc, W_hc, b_c = _three() # 候选 记忆 细胞 参数 

# 输出 层 参数 

W_hq = _one((num_hiddens, num_outputs) ) 

b_q = nd.zeros(num_outputs, ctx=ctx) 

# 附 上 梯度 

params = [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, 
b_c, W_hq, b_q] 

for param in params: 


param.attach_grad() 
return params 


2. 定义 模型 


在 初始 化 函数 中 ， 长 短期 记忆 的 隐藏 状态 需要 返回 额外 的 形状 为 (批量 大 小 , 隐藏 单元 个 
数 ) 的 值 为 0 的 记忆 细胞 。 


In [3]: def init_lstm_state(batch_size, num_hiddens, ctx): 
return (nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx), 
nd.zeros(shape=(batch_size, num_hiddens), ctx=ctx)) 


下 面 根 据 长 短期 记忆 的 计算 表达 式 定 义 模型 。 需 要 注意 的 是 ， 只 有 隐藏 状态 会 传递 到 输出 
层 ， 而 记忆 细胞 不 参与 输出 层 的 计算 。 


In [4]: def lstm(inputs, state, params): 
[W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, bic, 
W_hq, b_q] = params 
(H, C) = state 
outputs = [] 
for X in inputs: 
I = nd.sigmoid(nd.dot(X, W_xi) + nd.dot(H, W_hi) + b_i) 
F = nd.sigmoid(nd.dot(X, W_xf) + nd.dot(H, W_hf) + b_f) 
O = nd.sigmoid(nd.dot(X, W_xo) + nd.dot(H, W_ho) + b_o) 
C_tilda = nd.tanh(nd.dot(X, W_xc) + nd.dot(H, W_hc) + b_c) 
C=Fe«2C + 7 * C_tttea 
H = O x C.tanh() 
Y = nd.dot(H, W_hq) + b_q 
outputs.append(Y) 
return outputs, (H, C) 


3. 训练 模型 并 创作 歌词 


同 6.7 市 一 样 ， 我 们 在 训练 模型 时 只 使 用 相 令 采样。 设置 好 超 参 数 后 ， 我 们 将 训练 模型 并 
根据 前 级 “分 开 ” 和 “不 分 开 ” 分 别 创 作 长 度 为 50 个 字符 的 一 段 歌词 。 


In [5]: num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, le2, le-2 
pred_period, pred_len, prefixes = 40, 50, ['DH', ' 不 分 开 ' ] 


我 们 每 过 40 MERJE SEAR HE Sa BVI AR A RA BE — Brki] o 


6.8 ”长 短期 记忆 (LSTM) ° 181° 


In [6]: d2l.train_and_predict_rnn(lstm, get_params, init_lstm_state, num_hiddens, 
vocab_size, ctx, corpus_indices, idx_to_char, 
char_to_idx, False, num_epochs, num_steps, lr, 
clipping_theta, batch_size, pred_period, pred_len, 
prefixes) 


epoch 40, perplexity 212.596267, time 0.75 sec 
- 分 开 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 
- ADF 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 
epoch 80, perplexity 65.194249, time 0.75 sec 
- DH 我 想 你 你 我 不 我 RER 我 不 么 我 我 不 了 我 我 不 了 这 我 你 人 了 觉 我 不 了 好 我 不 了 双 RAA 
- 不 分 开 我 想 你 你 我 不 我 RER 我 不 么 我 我 不 了 我 我 不 了 这 我 MATH 我 不 了 好 我 不 了 双 RAA 
epoch 120, perplexity 15.478827, time 0.75 sec 
- DF 我 想 你 这 样 很 有 你 你 想 我 的 她 恼 ” 我 你 的 爱 笑 有 你 你 想 我 的 睡 你 我 想 你 的 你 爱 你 想 要 你 想 很 
- ADF 我 不 要 这 样 我 不 要 我 不 我 不 能 爱情 走 的 太 快 就 像 龙卷风 不 不 能 我 已 简 不 不 不 不 不 我 想 要 这 样 
epoch 160, perplexity 3.980211, time 0.75 sec 
- 分 开 我 不 要 这 里 我 有 这 这 样 我 不 要 可 生活 不 知 不 觉 你 过 经 离开 我 不 知 不 觉 我 中 了 这 节奏 后 知 后 觉 又 
- ADF 我 已 要 这 样 我 不 要 这 想 我 不 要 觉 不 活 不 知 不 觉 我 眼 了 这 节奏 后 知 后 觉 又 过 了 一 个 秋 后 知 后 觉 我 


6.8.4 简洁 实现 
在 Gluon 中 我 们 可 以 直接 调用 rnn 模块 中 的 LSTM 类 。 


In [7]: lstm_layer = rnn.LSTM(num_hiddens) 
model = d21l.RNNModel(lstm_layer, vocab_size) 
d21l.train_and_predict_rnn_gluon(model, num_hiddens, vocab_size, ctx, 
corpus_indices, idx_to_char, char_to_idx, 
num_epochs, num_steps, lr, clipping_theta, 
batch_size, pred_period, pred_len, prefixes) 


epoch 40, perplexity 222.122638, time 0.07 sec 
- 分 开 我 不 的 我 的 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 
- 不 分 开 我 不 不 的 我 我 不 不 的 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 我 我 不 的 
epoch 80, perplexity 66.759638, time 0.07 sec 
- DF 我 想 你 你 的 你 我 不 要 你 不 我 不 要 这 不 你 不 了 觉 我 不 了 这 我 不 了 这 RAT 什么 了 一 使 用 什 
- 不 分 开 我 想 你 你 不 你 我 不 要 你 不 我 不 要 这 不 你 不 了 觉 我 不 了 这 我 不 了 这 RAT 什么 了 一 使 用 什 
epoch 120, perplexity 14.485707, time 0.07 sec 
- DF 你 想 的 话 不 笑 每 天 在 你 的 考 笑 像 知 后 觉 我 想 了 这 节 活 我 知 后 觉 生活 后 知 不 觉 你 已 了 离开 我 不 知 
- ADF 我 想 要 这 生 我 不 能 这 想 我 不 能 这 生 我 不 知 不 觉 我 不 了 这 节 活 我 知 后 觉 我 不 要 这 生活 我 知 后 觉 生活 
epoch 160, perplexity 3.685880, time 0.07 sec 
- 分 开 我 想 你 你 的 玩笑 像 像 像 卷 风 我 想 我 这 辈子 注定 不 要 再 再 样 打 我 妈妈 我 说 的 话 不 不 会 吗 不 要 再 这 样 打 我 
- ADF 我 想 经 你 天 我 不 知 不 觉 我 中 了 这 节奏 后 知 后 觉 我 眼 了 这 生活 我 该 好 好 生活 不 知 不 觉 你 已 经 离开 我 


小 结 
e 长 短期 记忆 的 隐藏 层 输 出 包括 隐藏 状态 和 记忆 细胞 。 只 有 隐藏 状态 会 传递 到 输出 层 。 
© 长 短期 记忆 的 输入 门 、 遗 忘 门 和 输出 门 可 以 控制 信息 的 流动 。 


© 长 短期 记忆 可 以 应 对 循环 神经 网 络 中 的 梯度 衰减 问题 ， 并 更 好 地 捕捉 时 间 序 列 中 时 间 步 距离 
较 大 的 依赖 关系 。 
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练习 
(1) 调节 超 参 数 ， 观 察 并 分 析 对 运行 时 间 、 困 惑 度 以 及 创作 歌词 的 结果 造成 的 影响 。 


(2) 在 相同 条 件 下 ， 比 较 长 短期 记忆 、 门 控 循 环 单元 和 不 带 门 控 的 循环 神经 网 络 的 运行 时 间 。 
(3) 既然 候选 记忆 细胞 已 通过 使 用 tanh 函数 确保 值 域 在 -1 到 1 之 间 ， 为 什么 隐藏 状态 还 需要 再 
次 使 用 tanh 函数 来 确保 输出 值 域 在 -1 到 1 之 间 ? 





6.9 深度 循环 神经 网 络 


本 章 到 目前 为 止 介绍 的 循环 神经 网 络 只 有 一 个 单 向 的 隐藏 层 ， 在 深度 
学 习 应 用 里 ， 我 们 通常 会 用 到 含有 多 个 隐藏 层 的 循环 神经 网 络 ， 也 称 作 深 
度 循环 神经 网 络 。 图 6-11 演示 了 一 个 有 工 个 隐藏 层 的 深度 循环 神经 网 络 ， 
每 个 隐藏 状态 不 断 传递 至 当前 层 的 下 一 时 间 步 和 当前 时 间 步 的 下 一 层 。 











图 6-11 深度 循环 神经 网 络 的 架构 


具体 来 说 ， 在 时 间 步 1 里 ， 设 小 批量 输入 X, eR” OERA n, MADEO d), BIB 
藏 层 (=1,---,L) 的 隐藏 状态 为 HO eR”* (隐藏 单元 个 数 为 h)， 输 出 层 变量 为 0, eR” ( 输 
出 个 数 为 9)， 且 隐藏 层 的 激活 函数 为 办 第 1 隐藏 层 的 隐藏 状 态 和 之 前 的 计算 一 样 : 


HP = HXW + HOWE +) 
其 中 权重 于 9 eR, WO eR” 和 偏差 外) es 及 ”分别 为 第 1 隐藏 层 的 模型 参数 。 
当 1<</ 私 工时 ， 第 /隐藏 层 的 隐藏 状态 的 表达 式 为 
HP = 6H WS) + HOWE +6.) 
FPR WO eR”, WO ER” 和 偏差 pe RR 分 别 为 第 1 隐藏 层 的 模型 参数 。 
最 终 ， 输 出 层 的 输出 只 需要 基于 第 工 隐藏 层 的 隐藏 状态 : 


0, = H}OW,, +b, 
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EPRE W, ER” 和 偏差 b, e R™ 为 输出 层 的 模型 参数 。 


同 多 层 感 知 机 一 样 ， 隐 藏 层 个 数 工 和 隐藏 单元 个 数 疡 都 是 超 参数 。 此 外 ， 如 果 将 隐藏 状态 
的 计算 换 成 门 控 循 环 单元 或 者 长 短期 记忆 的 计算 ， 我 们 可 以 得 到 深度 门 控 循 环 神经 网 络 。 


小 结 
。 在 深度 循环 神经 网 络 中 ， 隐 藏 状态 的 信息 不 断 传递 至 当前 层 的 下 一 时 间 步 和 当前 时 间 步 的 下 





6.10 ” 双 回 循环 神经 网 络 


之 前 介绍 的 循环 神经 网 络 模型 都 是 假设 当前 时 间 步 是 由 前 面 的 较 早 时 
间 步 的 序列 决定 的 ， 因 此 它们 都 将 信息 通过 隐藏 状态 从 前 往 后 传递 。 有 时 
候 ， 当 前 时 间 步 也 可 能 由 后 面 时 间 步 决定 。 例 如 ， 当 我 们 写 下 一 个 句子 时 ， 
可 能 会 根据 句子 后 面 的 词 来 修改 句子 前 面 的 用 词 。 双 向 循环 神经 网 络 通过 
增加 从 后 往 前 传递 信息 的 隐藏 层 来 更 灵活 地 处 理 这 类 信息 。 图 6-12 演示 了 
一 个 含 单 隐藏 层 的 双 回 循环 神经 网 络 的 架构 。 








图 6-12 ” 双 回 循环 神经 网 络 的 架构 


下 面 我 们 来 介绍 具体 的 定义 。 给 定时 间 步 t 的 小 批量 输入 X, ER”! (样本 数 为 xn， 输入 个 
BA d) 和 隐藏 层 激活 函数 为 $9。 在 双 癌 循环 神经 网 络 的 架构 中 ， 设 该 时 间 步 正 癌 隐 藏 状态 为 
H, e R”〈( 正 向 隐藏 单元 个 数 为 h)， 反 向 隐藏 状态 为 H, e R™( 反 向 隐藏 单元 个 数 为 h)。 我 
们 可 以 分 别 计算 正 癌 隐藏 状态 和 反问 隐 藏 状态 : 
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H, =X WI +H, Wi +P) 

H, =X W + Hi Wy, +b) 
其 中 权重 WEP ERO, WH eR” WY ERO, WP eR” 和 偏差 BY eR” bO eR” 
均 为 模型 参数 。 

然后 我 们 连结 两 个 方向 的 隐藏 状态 H, 和 HH, 来 得 到 隐藏 状态 H, RO", PHRA 
出 层 。 输 出 层 计算 输出 0, e R”?〈 输 出 个 数 为 q): 
Or-=HWi +5, 

其 中 权重 W,, ER” 和 偏差 he RR 为 输出 层 的 模型 参数 。 不 同方 向 上 的 隐藏 单元 个 数 也 可 
以 不 同 。 


小 结 
© 双向 循环 神经 网 络 在 每 个 时 间 步 的 隐藏 状态 同时 取决 于 该 时 间 步 之 前 和 之 后 的 子 序列 (包括 
当前 时 间 步 的 输入 )。 


练习 
(1) 如果 不同 方向 上 使 用 不 同 的 隐藏 单元 个 数 ， 且 ,的 形状 会 发 生 怎 样 的 改变 ? 
(2) 参考 图 6-11 和 图 6-12, 设计 含 多 个 隐藏 层 的 双向 循环 神经 网 络 。 








如 果 读 者 一 直 按照 本 书 的 顺序 读 到 这 里 ， 那 么 一 定 已 经 使 用 了 优化 算法 来 训练 深度 学 习 
模型 。 具 体 来 说 ， 在 训练 模型 时 ， 我 们 会 使 用 优化 算法 不 断 迭 代 模 型 参数 以 降低 模型 损失 函 
数 的 值 。 当 运 代 终止 时 ， 模 型 的 训练 随 之 终止 ， 此 时 的 模型 参数 就 是 模型 通过 训练 所 学 习 到 
的 参数 。 


优化 算法 对 于 深度 学 习 十 分 重要 。 一 方面 ， 训 练 一 个 复杂 的 深度 学 习 模 型 可 能 需要 数 小 
时 、 数 日 ， 甚 至 数 周 时间 ， 而 优化 算法 的 表现 直接 影响 模型 的 训练 效率 ， 另 一 方面 ， 理 解 各 种 
优化 算法 的 原理 以 及 其 中 超 参数 的 意义 将 有 助 于 我 们 更 有 针对 性 地 调 参 ， 从 而 使 深度 学 习 模型 
表现 更 好 。 


本 章 将 详细 介绍 深度 学 习 中 常用 的 优化 算法 。 


7.1 优化 与 深度 学 习 扫 码 直达 讨论 区 


本 节 将 讨论 优化 与 深度 学 习 的 关系 ， 以 及 优化 在 深度 学 习 中 的 挑战 。 OF PA [z] 
在 一 个 深度 学 习 问 题 中 ， 我 们 通常 会 预先 定义 一 个 损失 函数 。 有 了 损失 函 。 
数 以 后 ， 我 们 就 可 以 使 用 优化 算法 试图 将 其 最 小 化 。 在 优化 中 ， 这 样 的 损 | 
失 函 数 通常 被 称 作 优化 问题 的 目标 函数 Cobjective function)。 依 据 惯 例 ， [m] . 
优化 算法 通常 只 考虑 最 小 化 目标 函数 。 其 实 ， 任 何 最 大 化 问题 都 可 以 很 容易 地 转化 为 最 小 化 问 
题 ， 只 需 令 目标 函数 的 相反 数 为 新 的 目标 函数 即 可 。 








7.1.1 优化 与 深度 学 习 的 关系 


虽然 优化 为 深度 学 习 提 供 了 最 小 化 损失 函数 的 方法 ， 但 本 质 上 ， 优 化 与 深度 学 习 的 目标 是 
有 区 别 的 。 在 3.11 节 中 ， 我 们 区 分 了 训练 误差 和 泛 化 误差 。 由 于 优化 算法 的 目标 函数 通 弟 是 
一 个 基于 训练 数据 集 的 损失 函数 ， 优 化 的 目标 在 于 降低 训练 误差 。 而 深度 学 习 的 目标 在 于 降 
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低 泛 化 误差 。 为 了 降低 泛 化 误差 ， 除 了 使 用 优化 算法 降低 训练 误差 以 外 ， 还 需要 注意 应 对 过 
拟 合 。 


本 章 中 ， 我 们 只 关注 优化 算法 在 最 小 化 目标 函数 上 的 表现 ， 而 不 关注 模型 的 泛 化 误差 。 


7.1.2 优化 在 深度 学 习 中 的 挑战 


我 们 在 3.1 节 中 对 优化 问题 的 解析 解 和 数值 解 做 了 区 分 。 深 度 学 习 中 绝 大 多 数目 标 函数 都 
很 复杂 。 因 此 ， 很 多 优化 问题 并 不 存在 解析 解 ， 而 需要 使 用 基于 数值 方法 的 优化 算法 找到 近似 
解 ， 即 数值 解 。 本 书 中 讨论 的 优化 算法 都 是 这 类 基于 数值 方法 的 算法 。 为 了 求 得 最 小 化 目标 函 
数 的 数值 解 ， 我 们 将 通过 优化 算法 有 限 次 迭代 模型 参数 来 尽 可 能 降低 损失 函数 的 值 。 


优化 在 深度 学 习 中 有 很 多 挑战 。 下 面 描述 了 其 中 的 两 个 挑战 ， 即 局 部 最 小 值 和 贰 点。 为 了 
更 好 地 摘 述 问题 ， 我 们 先导 入 实验 需要 的 包 或 模块 。 
In [1]: %matplotlib inline 
import d2Lzh as d21 


from mpl_toolkits import mplot3d 
import numpy as np 


1. 局 部 最 小 值 


对 于 目标 函数 f(x)， 如 果 f(x) 在 x 上 的 值 比 在 x 邻近 的 其 他 点 的 值 更 小 ， 那 么 f(x) 可 能 
是 一 个 局 部 最 小 值 (local minimum). WR f(x) 在 x 上 的 值 是 目标 函数 在 整个 定义 域 上 的 最 小 
值 ， 那 么 f(x) 是 全 局 最 小 值 (global minimum). 


举 个 例子 ， 给 定 函 数 
f(x}=X-:C08(nx), -10SxS2.0 


我 们 可 以 大 致 找 出 该 函数 的 局 部 最 小 值 和 全 局 最 小 值 的 位 置 。 需 要 注意 的 是 ， 图 中 箭头 所 
指示 的 只 是 大 致 位 置 。 


In [2]: def f(x): 
return x * np.cos(np.pi * x) 


d2l.set_figsize((4.5, 2.5)) 

x = np.arange(-1.0, 2.0, 0.1) 

fig, = d2l.plt.plot(x, f(x)) 

fig.axes.annotate('local minimum', xy=(-0.3, -@.25), xytext=(-0.77, -1.0), 
arrowprops=dict(arrowstyle='->')) 

fig.axes.annotate('global minimum', xy=(1.1, -0.95), xytext=(0.6, 0.8), 
arrowprops=dict(arrowstyle='->')) 

d21l.plt.xlabel('x') 

d2l.plt.ylabel('f(x)'); 
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1 global minimum 





= local minimum 


i0 —Oe.-60....65. 208 ee ag 
xX 


DR PSE =F >) BAB AY H ERRAR BEA A De EE © 4 — I) eB) AP ZEB Be AE 
附近 时 ， 由 于 目标 函数 有 关 解 的 梯度 接近 或 变 成 0， 最 终 和 迭代 求 得 的 数值 解 可 能 只 令 目标 函数 
局 部 最 小 化 而 非 全 局 最 小 化 。 





2. 鞍点 
刚刚 我 们 提 到 ， 梯 度 接近 或 变 成 0 可 能 是 由 于 当前 解 在 局 部 最 优 解 附 近 造 成 的 。 事 实 上 ， 
另 一 种 可 能 性 是 当前 解 在 鞍点 (saddle point) 附近 。 


举 个 例子 ， 给 定 函数 


f(x)=x 
RATEJ PARK H 1% PRB BA A E o 


In [3]: x = np.arange(-2.0, 2.0, 0.1) 
fig, = d2l.plt.plot(x, Xx**3) 
fig.axes.annotate('saddle point', xy=(0, -0.2), xytext=(-0.52, -5.0), 
arrowprops=dict(arrowstyle='->')) 
d2l.plt.xlabel('x') 
d2l.plt.ylabel('f(x)'); 


5 
x 0 
Qe 
Lg saddle point 
一 2 -1 0 1 2 
X 


再 举 个 定义 在 二 维 空间 的 函数 的 例子 ， 例 如 : 


f(x, y= -y 
我 们 可 以 找 出 该 函数 的 鞍点 位 置 。 也 许 你 已 经 发 现 了 ， 该 函数 看 起 来 像 一 个 马鞍 ， 而 鞍点 恰好 
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是 马鞍 上 可 坐 区 域 的 中 心 。 


EN 
Z= xx*x2 - yxx2 


ax = d2l.plt.figure().add_subplot(111, projection='3d') 
ax.plot_wireframe(x, y, z, **{'rstride': 2, 'cstride': 2}) 
ax. PELLO: POl; 16], "rx") 

ticks: = {eiz Opni] 

d2l.plt.xticks(ticks) 

d21l.plt.yticks(ticks) 

ax.set_zticks(ticks) 

d21l.plt.xlabel('x') 

d2l.plt.ylabel('y'); 





在 图 的 鞍点 位 置 ， 目 标 函 数 在 x 轴 方 向 上 是 局 部 最 小 值 ， 但 在 y 轴 方 向 上 是 局 部 最 大 值 。 


假设 一 个 函数 的 输入 为 大 维 向 量 ， 输 出 为 标量 ， 那 么 它 的 海 森 矩阵 (Hessian matrix) 有 天 个 
特征 值 〈 参 见 附录 A)。 该 函数 在 梯度 为 0 的 位 置 上 可 能 是 局 部 最 小 值 、 局 部 最 大 值 或 者 鞍点 : 


。 当 函 数 的 海 森 矩 阵 在 梯度 为 0 的 位 置 上 的 特征 值 全 为 正 时 ， 该 函数 得 到 局 部 最 小 值 ; 

o SPR BCH AE PR EE EB REN 0 的 位 置 上 的 特征 值 全 为 负 时 ， 该 函数 得 到 局 部 最 大 值 ; 

© 当 函 数 的 海 森 矩阵 在 梯度 为 0 的 位 置 上 的 特征 值 有 正 有 负 时 ， 该 函数 得 到 鞍点 。 

随机 和 矩阵 理论 告诉 我 们 ， 对 于 一 个 大 的 高 斯 随机 窍 阵 来 说 ， 任 一 特征 值 是 正 或 者 是 负 的 概 
率 都 是 0.35"。 那 么 ， 以 上 第 一 种 情况 的 概率 为 0.5”。 由 于 深度 学 习 模 型 参数 通常 都 是 高 维 的 
(很 大 )， 目 标 函 数 的 鞍 扣 通常 比 局 部 最 小 值 更 常见 。 

在 深度 学 习 中 ， 虽 然 找 到 目标 函数 的 全 局 最 优 解 很 难 ， 但 这 并 非 必要 。 我 们 将 在 本 章 接 下 
来 的 几 节 中 逐一 介绍 深度 学 习 中 常用 的 优化 算法 ， 它 们 在 很 多 实际 问题 中 都 能 够 训练 出 十 分 有 
效 的 深度 学 习 模 型 。 


小 结 
© 由 于 优化 算法 的 目标 函数 通常 是 一 个 基于 训练 数据 集 的 损失 函数 ， 优 化 的 目标 在 于 降低 训练 


误差 。 
© 由 于 深度 学 习 模 型 参数 通常 都 是 高 维 的， 目标 函数 的 鞍点 通常 比 局 部 最 小 值 更 常见 。 
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7.2 ”梯度 下 降 和 随机 梯度 下 降 


在 本 节 中 ， 我 们 将 介绍 梯度 下 降 (gradient descent) 的 工作 原理 。 虽 
然 梯度 下 降 在 深度 学 习 中 很 少 直接 使 用 ， 但 理解 梯度 的 意义 以 及 沿 着 梯度 
反方 问 更 新 目 变 量 可 能 降低 目标 函数 值 的 原因 是 学 习 后 续 优 化 算法 的 基础 。 
随后 ， 我 们 将 引出 随机 梯度 下 降 (stochastic gradient descent). 





7.2.1 一 维 梯度 下 降 


我 们 先 以 简单 的 一 维 梯度 下 降 为 例 ， 解 释 梯 度 下 降 算 法 可 能 降低 目标 函数 值 的 原因 。 假 设 
连续 可 导 的 函数 RR 的 输入 和 输出 都 是 标量 。 给 定 绝对 值 足够 小 的 数 ce， 根 据 泰勒 展开 
公式 (参见 附录 A)， 我 们 得 到 以 下 的 近似 : 


| f(x+e) > f(x) te f(x) 
这 里 f(x) 是 函数 f 在 x 处 的 梯度 。 一 维 函 数 的 梯度 是 一 个 标量 ， 也 称 导 数 。 
接 下 来 ， 找 到 一 个 常数 7 > 0， 使 得 Im 了 "(x)| 足够 小 ， 那 么 可 以 将 e 替换 为 -nf "(x) 并 得 到 


f(x-nf'(x)) © f(x) -nf (x) 
如 果 导 数 f(x) 40, BAnf'(x’>0, ARV 


f(x-—7f (x)) S f(x) 





这 意味 着 ， 如 果 通 过 


xex-nf (x) 
KIER x, PBA f(x) 的 值 可 能 会 降低 。 因 此 在 梯度 下 降 中 ， 我 们 先 选取 一 个 初始 值 x 和 常 
数 7 二 0， 然后 不 断 通过 上 式 来 迭代 x， 直 到 达到 停止 条 件 ， 例 如 f'(x) 的 值 已 足够 小 或 迭代 
次 数 已 达到 某 个 值 。 


下 面 我 们 以 目标 函数 f(x) = * 为 例 来 看 一 看 梯度 下 降 是 如 何 工作 的 。 虽 然 我 们 知道 最 小 
化 f(x) 的 解 为 x = 0， 这 里 依然 使 用 这 个 简单 函数 来 观察 x ET GAC. AE, FAB 
实验 所 需 的 包 或 模块 。 


In [1]: %matplotlib inline 
import d2lzh as d21 
import math 
from mxnet import nd 
import numpy as np 
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接 下 来 使 用 x=10 作为 初始 值 ， 并 设 7 = 0.2。 使 用 梯度 下 降 对 x 友 代 10 次 ， 可 见 最终 x 
的 值 较 接近 最 优 解 。 


In [2]: def gd(eta): 

x = 10 

results = [x] 

for i in range(10): 
x -=-eta*2x*x # f(x) = x x xBSeart'(x) = 2 * x 
results.append(x) 

print('epoch 10, x:', x) 

return results 


res = gd(0.2) 
epoch 10, x: 0.06046617599999997 


下 面 将 绘制 出 目 变量 x HI CE 


In [3]: def show_trace(res): 
n = max(abs(min(res)), abs(max(res)), 10) 
f_line = np.arange(-n, n, 0.1) 
d21l.set_figsize() 
d21l.plt.plot(f_line, [x * x for x in f_line]) 
d21l.plt.plot(res, [x * x for x in res], '-o') 
d21l.plt.xlabel('x') 
d21l.plt.ylabel('f(x)') 


show_trace(res) 
100 
80 
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7.2.2 学 习 率 

上 述 梯度 下 降 算 法 中 的 正 数 了 通常 叫 作 学 习 率 。 这 是 一 个 超 参 数 ， 需 要 人 工 设 定 。 如 宁 使 
用 过 小 的 学 习 率 ， 会 导致 x* 更 新 缓慢 从 而 需要 更 多 的 迭代 才能 得 到 较 好 的 解 。 

下 面 展示 使 用 学 习 率 7 = 0.05 时 自 变 量 x 的 迭代 轨迹 。 可 见 ， 同 样 迭 代 10 次 后 ， 当 学 习 
率 过 小 时 ， 最 终 x 的 值 依然 与 最 优 解 存在 较 大 偏差 。 
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In [4]: show_trace(gd(0.05) ) 


epoch 10, x: 3.4867844009999995 


100 
80 


60 


f(x) 


40 
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如 果 使 用 过 大 的 学 习 率 ，| f(x)| 可 能 会 过 大 从 而 使 前 面 提 到 的 一 阶 泰勒 展开 公式 不 再 成 
VW: 这 时 我 们 无 法 保证 迭代 x 会 降低 f(x) 的 值 。 

举 个 例子 ， 当 设 学 习 率 = 1.1 时 ， 可 以 看 到 x 不 断 越 过 (overshoot) 最 优 解 x = 0 并 逐渐 
发 散 。 | 

In [5]: show_trace(gd(1.1)) 


epoch 10, x: 61.917364224000096 


4000 
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7.2.3 多维 梯度 下 降 


在 了 解 了 一 维 梯度 下 降 之 后 ， 我 们 再 考虑 一 种 更 广义 的 情况 : 目标 函数 的 输入 为 向 量 ， 输 
出 为 标量 。 假 设 目标 函数 f:R4 OR 的 输入 是 一 个 4 维 向 量 x=[xi,x,,…, xy] 。 目 标 函 数 
f(x) 有 关 x 的 梯度 是 一 个 由 4 个 偏 导 数组 成 的 癌 量 : 
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9100- Z LE), LO) 
X, Ox, 

为 表示 简洁 ， 我 们 用 Vf (x) 代替 Vf(x) 。 梯 度 中 每 个 偏 导数 元 素 Gf (2) / Ox, 代表 着 /在 x 
有 关 输 入 的 变化 率 。 为 了 测量 / 沿 着 单位 向 量 w 即 | = 1) 方向 上 的 变化 率 ， 在 多 元 微 积 
分 中 ， 我 们 定义 在 x 上 沿 着 方向 的 方向 导数 为 


D, f(x) = fy BART 


依据 方向 导数 性 质 (参见 文献 [50]，14.6 节 定 理 三 ) ， 以 上 方向 导数 可 以 改写 为 
D, f(x) =Vf(x)-u 


方向 导数 D, f(x) 给 出 了 f 在 x 上 沿 着 所 有 可 能 方向 的 变化 率 。 为 了 最 小 化 f/， 我 们 希望 找到 f 
能 被 最 快 降低 的 方 辐 。 因 此 ， 我 们 可 以 通过 单位 癌 量 w 来 最 小 化 方向 导数 D, f(x)。 


由 于 D, f(x) =| VA] lul- cost) = 上 VA(x) 首 -cos(9)， 其 中 9 为 梯度 Vf(x) 和 单位 向 量 w 之 
间 的 夹 角 ， 当 9=x 时 ，cos(0) 取得 最 小 值 -1。 因 此 ， 当 w 在 梯度 方向 Vf(x) 的 相反 方向 时 ， 
方向 导数 D,f (x) 被 最 小 化 。 因 此 ， 我 们 可 能 通过 梯度 下 降 算法 来 不 断 降低 目标 函数 f 的 值 : 


x x-nVf (x) 
AR, Hep yn ESO 称 作 学 习 率 。 


下 面 我 们 构造 一 个 输入 为 二 维 向 量 x =[x,, x]! 和 输出 为 标量 的 目标 函数 f(x) = 邓 +2x2 。 
那么 ， 梯 度 Vf(x) =[2x, 4x] 。 我 们 将 观察 梯度 下 降 从 初始 位 置 [-5, -2] 开始 对 自 变 量 x 的 
迭代 轨迹 。 我 们 先 定义 两 个 辅助 函数 ， 第 一 个 函数 使 用 给 定 的 自 变 量 更 新 函数 ， 从 初始 位 置 
[-5, -2] 开始 迭代 自 变量 x FE 20 次 ， 第 二 个 函数 对 自 变量 x 的 迭代 轨迹 进行 可 视 化 。 


In [6]: def train_2d(trainer): # 本 国 数 将 保存 在 d2Lzh 包 中 方便 以 后 使 用 
xl, x2, sl, s2 = -5, -2, 0, © # sl 和 s2 是 自 变量 状态 ， 本 章 后 续 几 节 会 使 用 
results = [(xl, x2)] 
for i in range(20): 
x1 Ax2, Sly S2\=-trammertkl, x2;/s1, s2) 
results.append((x1l, x2)) 
print('epoch %d, x1 %f, x2 %f' % (i + 1, x1, x2)) 
return results 


def show_trace_2d(f, results): # 本 函数 将 保存 在 d2Lzh 包 中 方便 以 后 使 用 
d21l.plt.plot(*zip(*results), '-o', color='#ff7f0e' ) 
xl, x2 = np.meshgrid(np.arange(-5.5, 1.0, 0.1), np.arange(-3.0, 1.0, 0.1)) 
d21l.plt.contour(xl, x2, f(xl, x2), colors='#1f77b4') 
d2l.plt.xlabel('x1') 
d2l.plt.ylabel('x2') 


然后 ， 观 察 学 习 率 为 0.1 时 自 变 量 的 迭代 轨迹 。 使 用 梯度 下 降 对 自 变 量 x 和 迭代 20 次 后 ， 
可 见 最 终 x 的 值 较 接 近 最 优 解 [0, 0]。 


In [7]: eta = 0.1 


def f_2d(x1, x2): # 目标 函数 
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return xl ** 2 +2 * x2 ** 2 


def gd_2d(xl, x2, sl, s2): 
return (xl - eta * 2 * xl, x2 - eta * 4 * x2, 0, 0) 


show_trace_2d(f_2d, train_2d(gd_2d) ) 


epoch 20, x1 -0.057646, x2 -0.000073 


7.2.4 ”随机 梯度 下 降 


在 深度 学 习 里 ， 目 标 函 数 通常 是 训练 数据 集中 有 关 各 个 样本 的 损失 函数 的 平均 。 设 J(Xx) 
是 有 关 索 引 为 i 的 训练 数据 样本 的 损失 函数 ，n 是 训练 数据 样本 数 ，x 是 模型 的 参数 向 量 ， 那 
么 目标 函数 定义 为 


1 n 
no- E fi(x) 
目标 函数 在 x 处 的 梯度 计算 为 


F= D wl) 
i=] 


On FR 5 A BE REE BE, EK ARIE WIT RIA O(n), “ERG n 线性 增长 。 因 此 ， 妆 
WFR EAS BURA, BARE T BERETA RAITT FP AAR e o 


随机 梯度 下 降 (stochastic gradient descent, SGD) 减少 了 每 次 迭代 的 计算 开销 。 在 随机 梯度 下 
降 的 每 次 迭代 中 ， 我 们 随机 均匀 采样 的 一 个 样本 索引 ie {1,…,n}， 并 计算 梯度 Vi) KIEA x : 
x << x-—nVf;(x) 
这 里 ARES. AUS, FREERK IT ABM BE T ER O(n) 降 到 了 常数 OM). 
值得 强调 的 是 ， 随 机 梯度 Vii (x) 是 对 梯度 VA(x) FC TT : 


ENS (x)=— > Vfi(x) = WO) 


i=l 


这 意味 着 ， 平 均 来 说 ， 随 机 梯度 是 对 梯度 的 一 个 良好 的 估计 。 
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下 面 我 们 通过 在 梯度 中 添加 均值 为 0 的 随机 噪声 来 模拟 随机 梯度 下 降 ， 以 此 来 比较 它 与 梯 
度 下 降 的 区 别 。 
In [8]: def sgd_2d(xl, x2, sl, s2): 
return (x1 - eta * (2 x xl + np.random.normal(0.1)), 
x2 - eta * (4 * x2 + np.random.normal(0.1)), 0, 0) 


show_trace_2d(f_2d, train_2d(sgd_2d) ) 


epoch 20, x1 0.003648, x2 -0.215806 





AY DAB, BEALE T REP A Ae Be AI CLE FE REPRE HST. RE 
于 实验 所 添加 的 品 声 使 模拟 的 随机 梯度 的 准确 度 下 降 。 在 实际 中 ， 这 些 品 声 通常 指 训练 数据 集 
中 的 无 意义 的 干扰 。 


使 用 适当 的 学 习 率 ， 沿 着 梯度 反方 向 更 新 自 变量 可 能 降低 目标 函数 值 。 梯 度 下 降 重 复 这 一 更 
新 过 程 直到 得 到 满足 要 求 的 解 。 

学 习 率 过 大 或 过 小 都 有 问题 。 一 个 合适 的 学 习 率 通常 是 需要 通过 多 次 实验 找到 的 。 

当 训练 数据 集 的 样本 较 多 时 ， 梯 度 下 降 每 次 迭代 的 计算 开销 较 大 ， 因 而 随机 梯度 下 降 通 常 更 
受 青 睐 。 


(1) 使 用 一 个 不 同 的 目标 函数 ， 观 察 梯 度 下 降 和 随机 梯度 下 降 中 自 变 量 的 迭代 轨迹 。 
(2) 在 二 维 梯度 下 降 的 实验 中 尝试 使 用 不 同 的 学 习 率 ， 观 察 并 分 析 实 验 现 象 。 





7.3 ”小 批量 随机 梯度 下 降 


在 每 一 次 迭代 中 ， 梯 度 下 降 使 用 整个 训练 数据 集 来 计算 梯度 ， 因 此 它 
有 时 也 被 称 为 批量 梯度 下 降 (batch gradient descent)。 而 随机 梯度 下 降 在 
每 次 欠 代 中 只 随机 采样 一 个 样本 来 计算 梯度 。 正 如 我 们 在 前 几 章 中 所 看 到 
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的 ， 我 们 还 可 以 在 每 轮 欠 代 中 随机 均匀 采样 多 个 样本 来 组 成 一 个 小 批量 ， 然 后 使 用 这 个 小 批量 
来 计算 梯度 。 下 面 就 来 描述 小 批量 随机 梯度 下 降 。 


设 目 标 函 数 f(x): 民 "一 民 。 在 迭代 开始 前 的 时 间 步 设 为 0。 该 时 间 步 的 自 变量 记 为 
x, e 了 及“， 通 常 由 随机 初始 化 得 到 。 在 接 下 来 的 每 一 个 时 间 步 :> 0 中， 小 批量 随机 梯度 下 降 随 
机 均匀 采样 一 个 由 训练 数据 样本 索引 组 成 的 小 批量 及。 我 们 可 以 通过 重复 采样 〈sampling with 
replacement) 或 者 不 重复 采样 (sampling without replacement) 得 到 一 个 小 批量 中 的 各 个 样本 。 
前 者 允许 同一 个 小 批量 中 出 现 重复 的 样本 ， 后 者 则 不 允许 如 此 ， 且 更 常见 。 对 于 这 两 者 间 的 任 
一 种 方式 ， 都 可 以 使 用 


> Vfim) 


ieB, 


1 
§; — Vip (X11) = Bl 
it FN [al ec BY) athe B, EB peek ee x, 处 的 梯度 g,。 这 里 |8| 代表 批量 大 小 ， 即 小 批量 
中 样本 的 个 数 ， 是 一 个 超 参 数 。 同 随机 梯度 一 样 ， 重 复 采 样 所 得 的 小 批量 随机 梯度 8 也 是 对 梯 
E VA (xa) 的 无 偏 估计 。 给 定 学 习 率 nn,〈( 取 正 数 )， 小 批量 随机 梯度 下 降 对 自 变 量 的 迭代 如 下 : 


Xi — Xi- —1,8; 


基于 随机 采样 得 到 的 梯度 的 方差 在 迭代 过 程 中 无 法 减 小 ， 因 此 在 实际 中 ，( 小 批量 ) 随 
机 梯度 下 降 的 学 习 率 可 以 在 迭代 过 程 中 自我 衰减 ， 例 如 7 = nt" GE a =-1 或 者 -0.5)、 
n =a (tia = 0.95) 或 者 每 迭代 若干 次 后 将 学 习 率 衰减 一 次 。 如 此 一 来 ， 学 习 率 和 (小 批量 ) 
随机 梯度 乘积 的 方差 会 减 小 。 而 梯度 下 降 在 迭代 过 程 中 一 直 使 用 目标 函数 的 真实 梯度 ， 无 须 自 
我 衰减 学 习 率 。 


小 批量 随机 梯度 下 降 中 每 次 迭代 的 计算 开销 为 O(|B8|)。 当 批量 大 小 为 1 时 ， 该 算法 即 随机 
梯度 下 降 ， 当 批量 大 小 等 于 训练 数据 样本 数 时 ， 该 算法 即 梯度 下 降 。 当 批量 较 小 时 ， 每 次 欠 代 
中 使 用 的 样本 少 ， 这 会 导致 并 行 处 理 和 内 存 使 用 效率 变 低 。 这 使 得 在 计算 同样 数目 样本 的 情况 
下 比 使 用 更 大 批量 时 所 人 花 时 间 更 多 。 当 批量 较 大 时 ， 每 个 小 批量 梯度 里 可 能 含有 更 多 的 元 余 信 
四 。 为 了 得 到 较 好 的 解 ， 批 量 较 大 时 比 批量 较 小 时 需要 计算 的 样本 数目 可 能 更 多 ， 例 如 增 大 迭 
代 周 期 数 。 


7.3.1 读 取 数据 集 


本 章 里 我 们 将 使 用 一 个 来 自 NASA 的 测试 不 同 飞 机 机 可 噪音 的 数据 集 来 比较 各 个 优化 算 
法 。 我 们 使 用 该 数据 集 的 前 1 500 个 样本 和 5 个 特征 ， 并 使 用 标准 化 对 数据 进行 预 处 理 。 


In [1]: %matplotlib inline 
import d2lzh as d2l 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import nn, data as gdata, loss as gloss 
import numpy as np 
import time 


def get_data_ch7(): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
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data = np.genfromtxt('../data/airfoil_self_noise.dat', delimiter='\t') 
data = (data - data.mean(axis=0)) / data.std(axis=0) 
return nd.array(data[:1500, :-1]), nd.array(data[:1500, -1]) 


features, labels = get_data_ch7() 
features.shape 


Out[1]: (1500, 5) 


7.3.2 ”从 零 开 始 实现 


3.2 节 中 已 经 实现 过 小 批量 随机 梯度 下 降 算 法 。 我 们 在 这 里 将 它 的 输入 参数 变 得 更 加 通用 ， 
主要 是 为 了 方便 本 章 后 面 介绍 的 其 他 优化 算法 也 可 以 使 用 同样 的 输入 。 具 体 来 说 ， 我 们 添加 了 
一 个 状态 输入 states 并 将 超 参数 放 在 字典 hyperparams 里 。 此 外 ， 我 们 将 在 训练 函数 里 对 
各 个 小 批量 样本 的 损失 求 平均 ， 因 此 优化 算法 里 的 梯度 不 需要 除 以 批量 大 小 。 


In [2]: def sgd(params, states, hyperparams): 
for p in params: 
p[:] -= hyperparams['\Lr'] * p.grad 


下 面 实现 一 个 通用 的 训练 函数 ， 以 方便 本 章 后 面 介绍 的 其 他 优化 算法 使 用 。 它 初始 化 一 个 
线性 回归 模型 ， 然 后 可 以 使 用 小 批量 随机 梯度 下 降 以 及 后 续 小 节 介绍 的 其 他 算法 来 训练 模型 。 


In [3]: # 本 函数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
def train_ch7(trainer_fn, states, hyperparams, features, Labels, 
batch_size=10, num_epochs=2): 
# 初始 化 模型 
net, loss = d2L.Linreg，d2L.squared_Loss 
w = nd.random.normal(scale=0.01, shape=(features.shape[1], 1)) 
b = nd.zeros(1) 
w.attach_grad() 
b.attach_grad() 


def eval_loss(): 
return loss(net(features, w, b), lLabels).mean().asscalar() 


ls = [eval_loss()] 
data_iter = gdata.DataLoader ( 
gdata.ArrayDataset(features, labels), batch_size, shuffle=True) 
for _ in range(num_epochs): 
start = time.time() 
for batch_i, (X, y) in enumerate(data_iter): 
with autograd.record(): 
l = loss(net(X, w, b), y).mean() # 使 用 平均 损失 
L. backward () 
trainer_fn([w, b], states, hyperparams) # 迭代 模型 参数 
if (batch_i + 1) * batch_size % 100 == 0: 
ls.append(eval_loss()) # 每 100 个 样本 记录 下 当前 训练 误差 
# 打印 结果 和 作 图 
print('loss: %f, %f sec per epoch' % (ls[-1], time.time() - start)) 
d21l.set_figsize() 


7.3 ”小 批量 随机 梯度 下 降 + 197° 


d2l.plt.plot(np.linspace(0, num_epochs, len(ls)), ls) 
d2l.plt.xlabel('epoch') 
d2l.plt.ylabel('loss') 


当 批 量 大 小 为 样本 总 数 1 500 时 ， 优 化 使 用 的 是 梯度 下 降 。 梯 度 下 降 的 1 个 迭代 周期 对 模 
型 参数 只 迭代 1 次 。 可 以 看 到 6 次 迭代 后 目标 函数 值 〈 训 练 损失 ) 的 下 降 趋 向 了 平稳 。 


In [4]: def train_sgd(lr, batch_size, num_epochs=2): 


train_ch7(sgd, None, {'lr': lr}, features, labels, batch_size, num_epochs) 
train_sgd(1, 1500, 6) ` 
loss: 0.246095, 0.025457 sec per epoch 
0.50 
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当 批 量 大 小 为 1 时 ， 优 化 使 用 的 是 随机 梯度 下 降 。 为 了 简化 实现 ， 有 关 “《 小 批量 ) 随机 梯 
度 下 降 的 实验 中 ， 我 们 未 对 学 习 率 进行 自我 衰减 ， 而 是 直接 采用 较 小 的 常数 学 习 率 。 随 机 梯 


度 下 降 中 ， 每 处 理 一 个 样本 会 更 新 一 次 自 变 量 (模型 参数 )， 一 个 迭代 周期 里 会 对 自 变 量 进行 
1 500 次 更 新 。 可 以 看 到 ， 目 标 函 数值 的 下 降 在 1 个 迭代 周期 后 就 变 得 较为 平缓 。 


In [5]: train_sgd(0.005, 1) 


loss: 0.246830, 2.179513 sec per epoch 


0.45 


epoch 
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虽然 随机 梯度 下 降 和 梯度 下 降 在 一 个 迭代 周期 里 都 处 理 了 1 500 个 样本 ,但 实验 中 随机 榜 
度 下 降 的 一 个 迭代 周期 耗 时 更 多 。 这 是 因为 随机 梯度 下 降 在 一 个 迭代 周期 里 做 了 更 多 次 的 目 变 
量 迭 代 ， 而 且 单 样本 的 梯度 计算 难以 有 效 利用 矢量 计算 。 


当 批量 大 小 为 10 时 ， 优 化 使 用 的 是 小 批量 随机 梯度 下 降 。 它 在 每 个 迭代 周期 的 耗 时 介 于 
梯度 下 降 和 随机 梯度 下 降 的 耗 时 之 间 。 


In [6]: train_sgd(0.05，10) 


loss: 0.243866, 0.252724 sec per epoch 
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7.3.3 简洁 实现 


在 Gluon 里 可 以 通过 创建 Trainer 实例 来 调用 优化 算法 。 这 能 让 实现 更 简洁 。 下 面 实现 一 
个 通用 的 训练 函数 ， 它 通过 优化 算法 的 名 字 trainer_name 和 超 参 数 trainer_hyperparams 
来 创建 Trainer 实例 。 

In [7]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def train_gluon_ch7(trainer_name, trainer_hyperparams, features, labels, 
batch_size=10, num_epochs=2): 
# 初始 化 模型 
net = nn.Sequential() 
net.add(nn.Dense(1) ) 
net. initialize(init.Normal(sigma=0.01) ) 
loss = gloss.L2Loss() : 


def eval_loss(): 
return loss(net(features), Labels) .mean().asscalar() 


ls = [eval_loss() ] 
data_iter = gdata.DataLoader ( 
gdata.ArrayDataset(features, labels), batch_size, shuffle=True) 
# 创建 Trainer 实 例 来 迭代 模型 参数 
trainer = gluon.Trainer( 
net.collect_params(), trainer_name, trainer_hyperparams) 


7.3 ”小 批量 随机 梯度 下 降 + 199- 


for _ in range(num_epochs): 
start = time.time() 
for batch_i, (X, y) in enumerate(data_iter): 
with autograd.record(): 
l = loss(net(X), y) 
Ll. backward () 
trainer.step(batch_size) # 在 Trainer 实 例 里 做 梯度 平均 
if (batch_i + 1) * batch_size % 100 == 0: 
ls.append(eval_loss()) 
# 打印 结果 和 作 图 
print('loss: %f, %f sec per epoch' % (ls[-1], time.time() - start)) 
d21l.set_figsize() 
d2l.plt.plot(np.linspace(0, num_epochs, len(1ls)), ls) 
d2l.plt.xlabel('epoch' ) 
d2l.plt.ylabel('loss') 


使 用 Gluon 重复 上 一 个 实验 。 


In [8]: train_gluon_ch7('sgd', {'learning_rate': 0.05}, features, labels, 10) 
loss: 0.244045, 0.246339 sec per epoch 
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0.45 
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小 结 
o 小 批量 随机 梯度 每 次 随机 均匀 采样 一 个 小 批量 的 训练 样本 来 计算 梯度 。 
© 在 实际 中 ,，( 小 批量 ) 随机 梯度 下 降 的 学 习 率 可 以 在 迭代 过 程 中 自我 襄 减 。 
。 通常 ， 小 批量 随机 梯度 在 每 个 迭代 周期 的 耗 时 介 于 梯度 下 降 和 随机 梯度 下 降 的 耗 时 之 间 。 


练习 

(1) 修改 批量 大 小 和 学 习 率 ， 观 察 目 标 函 数值 的 下 降 速 度 和 每 个 迭代 周期 的 耗 时 。 

(2) 查阅 MXNet 文档 ， 使 用 Trainer 类 的 set_learning_rate 函数 ， 令 小 批量 随机 梯度 
下 降 的 学 习 率 每 过 一 个 迭代 周期 减 小 到 原 值 的 1/10。 
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7.4 动量 ; 





变量 当前 位 置 下 降 最 快 的 方 同 。 因 此 ， 梯 度 下 降 也 叫 作 最 陡 下 降 (steepest 
descent)。 在 每 次 友 代 中 ， 柳 度 下 降 根 据 自 变量 当前 位 置 ， 沿 痢 当 前 位 置 的 
梯度 更 新 目 变 量 。 然 而 ， 如 果 上 自 变 量 的 迭代 方 回 仅仅 取决 于 目 变 量 当 前 位 
置 ， 这 可 能 会 市 来 一 些 问题 。 





7.4.1 E MERIR 


让 我 们 考虑 一 个 输入 和 输出 分 别 为 二 维 向 量 x = [x, x] 和 标量 的 目标 函数 f(x) = 0. 1x7 + 25 。 
与 7.2 节 中 不 同 ， 这 里 将 x? 系数 从 1 减 小 到 了 0.1。 下 面 实现 基于 这 个 目标 函数 的 梯度 下 降 ， 并 
演示 使 用 学 习 率 为 0.4 时 自 变量 的 迭代 轨迹 。 
In [1]: %matplotlib inline 
import d2lzh as d21 
from mxnet import nd 


eta = 0.4 


def f_2d(xl, x2): 
return 0.1 x x1 ** 2+ 2 * x2 ** 2 


def ¢ed.2d(xl, x2, sl, S2); 
return (x1 - eta * 0.2 * xl, x2 - eta * 4 * x2, 9, 0) 


d21.show_trace_2d(f_2d, d2l.train_2d(gd_2d) ) 


epoch 20, x1 -0.943467, x2 -0.000073 





可 以 看 到 ， 同 一 位 置 上 ， 目 标 函 数 在 竖 直 方 同 (x RATT IR) 比 在 水 平方 网 Cy 轴 方 同 ) 的 
和 斜率 的 绝对 值 更 大 。 因 此 ， 给 定 学 习 率 ， 梯 度 下 降 迄 代 自 变量 时 会 使 自 变量 在 竖 直 方 同 比 在 水 
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平方 向 移动 幅度 更 大 。 那 么 ， 我 们 需要 一 个 较 小 的 学 习 率 从 而 避免 自 变 量 在 紧 直 方向 上 越过 目 
标 函 数 最 优 解 。 然 而 ， 这 会 造成 自 变量 在 水 平方 向 上 朝 最 优 解 移动 变 慢 。 


下 面 我 们 试 着 将 学 习 率 调 得 稍 大 一 点 ， 此 时 自 变 量 在 竖 直 方向 不 断 越过 最 优 解 并 逐渐 
发 散 。 
In [2]: eta = 0.6 
d2l.show_trace_2d(f_2d, d21l.train_2d(gd_2d) ) 


epoch 20, x1 -0.387814, x2 -1673.365109 





7.4.2 动量 法 
动量 法 的 提出 是 为 了 解决 梯度 下 降 的 上 述 问题 。 由 于 小 批量 随机 梯度 下 降 比 梯度 下 降 更 为 
广义 ， 本 章 后 续 讨 论 将 沿用 7.3 节 中 时 间 步 t 的 小 批量 随机 梯度 g, 的 定义 。 设 时 间 步 1 的 自 变 
量 为 x， 学习 率 为 n,。 在 时 间 步 0， 动 量 法 创建 速度 变量 w， 并 将 其 元 素 初始 化 成 0。 在 时 间 
步 1 > 0， 动 量 法 对 每 次 迭代 的 步 又 做 如 下 修改 : 
Vi VV + NB 
Xt C Xi T V; 
其 中 ， 动 量 超 参数 y 满足 0 三 y y0, JERFA TEENE F E. 


在 解释 动量 法 的 数学 原理 前 ， 让 我 们 先 从 实验 中 观察 梯度 下 降 在 使 用 动量 法 后 的 迭代 
轨迹 。 
In [3]: def momentum_2d(xl, x2, vl, v2): 
vl = gamma * vl + eta * 0.2 * x1 


v2 = gamma * v2 + eta * 4 * x2 
return xi = Vi, We = VZ; Vl; V2 


eta, gamma = 0.4, 0.5 
d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d)) 


epoch 20, x1 -0.062843, x2 0.001202 
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可 以 看 到 使 用 较 小 的 学 习 率 7 = 0.4 和 动量 超 参 数 y = 0.5 时 ， 动 量 法 在 竖 直 方向 上 的 移动 
更 加 平滑 ， 且 在 水 平方 向 上 更 快 逼 近 最 优 解 。 下 面 使 用 较 大 的 学 习 率 7 = 0.6， 此 时 自 变 量 也 不 
再 发 散 。 

In [4]: eta = 0.6 

d21l.show_trace_2d(f_2d, d21l.train_2d(momentum_2d) ) 


epoch 20, x1 0.007188, x2 0.002553 





1. 指数 加 权 移 动 平 均 


为 了 从 数学 上 理解 动量 法 ， 让 我 们 先 解 释 一 下 指数 加 权 移动 平均 (exponentially weighted 
moving average)。 给 定 超 参 数 0 夺 y 二 1， 当前 时 间 步 1 的 变量 y 是 上 一 时 间 步 1-1 的 变量 y 
Vi = Yra t Ay) 
我 们 可 以 对 Mt 展开 : 
y =U-Y)x, F 
=(1-7)x, +(1-7) 7X1 + Y2 
=(1—7)x +(1-7): yx +-y) x 2 +y Vi 
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4&n=1/(l-y), BWA -1/0 = 0., AW 
lim f -+| = exp(—1) ~ 0.3679 
n 


所 以 当 y > 1, yO) = exp(-D， 如 0.957? 盖 exp(-D。 如 果 把 exp(-D 当 作 一 个 比较 小 的 数 ， 
我 们 可 以 在 近似 中 忽略 所 有 含 yx“ 和 比 yA 更 高 阶 的 系数 的 项 。 例 如 ， 当 y=0.95 时， 
19 
y, ~ 0.05% 0.95'x,_; 
i=0 
因此 ， 在 实际 中 ， 我 们 常常 将 y 看 作 是 对 最 近 1/L-7) PSNI x, ICKY. Bil 
如 ， 当 y=0.95 时 ，y 可 以 看 作对 最 近 20 SNA x, 值 的 加 权 平 均 ， 当 y=0.9 时 ，y 可 以 
看 作对 最 近 10 个 时 间 步 的 x 值 的 加 权 平 均 。 而 且 ， 离 当前 时 间 步 1 越 近 的 x 值 获 得 的 权重 越 
大 〈( 越 接近 1). 


2. 由 指数 加 权 移 动 平均 理解 动量 法 
现在 ， 我 们 对 动量 法 的 速度 变量 做 变形 : 


Vy VM +a-n{ Zee.) 


由 指数 加 权 移 动 平均 的 形式 可 得 ， 速 度 变 量 v 实际 上 对 序列 M-i8-i (1-7) :1 = 0, +++, 1/0 -y) -}} 
做 了 指数 加 权 移 动 平 均 。 换 句 话 说 ， 相 比 于 小 批量 随机 梯度 下 降 ， 动 量 法 在 每 个 时 间 步 的 自 变 
量 更 新 量 近 似 于 将 前 者 对 应 的 最 近 1/(1 — 7) 个 时 间 步 的 更 新 量 做 了 指数 加 权 移 动 平 均 后 再 除 以 
1-y。 所 以 ， 在 动量 法 中 ， 上 自 变 量 在 各 个 方 同 上 的 移动 幅度 不 仅 取决 于 当前 梯度 ， 还 取决 于 过 
去 的 各 个 梯度 在 各 个 方 同 上 是 否 一 致 。 在 本 节 之 前 示例 的 优化 问题 中 ， 所 有 梯度 在 水 平方 向 上 
为 正 ( 同 右 )， 而 在 竖 直 方 同上 时 正 〈 同 上 〉 时 负 【〈 同 下 )。 这 样 ， 我 们 就 可 以 使 用 较 大 的 学 习 
率 ， 从 而 使 目 变 量 向 最 优 解 更 快 移动 。 


74.3 ”从 零 开 始 实现 


相对 于 小 批量 随机 梯度 下 降 ， 动 量 法 需要 对 每 一 个 目 变 量 维护 一 个 同 它 一 样 形状 的 速度 变 
量 ， 且 超 参 数 里 多 了 动量 超 参 数 。 实 现 中 ， 我 们 将 速度 变量 用 更 广义 的 状态 变量 states 表示 。 


In [5]: features, labels = d2l.get_data_ch7() 


def init_momentum_states(): 
v_w = nd.zeros((features.shape[1], 1)) 
v_b = nd.zeros(1) 
return (v_w, v_b) 


def sgd_momentum(params, states, hyperparams): 
for p, v in zip(params, states): 
v[:] = hyperparams['momentum'] * v + hyperparams['lr'] * p.grad 
AEE Si 
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我 们 先 将 动量 超 参数 momentum 设 0.5， 这 时 可 以 看 成 是 特殊 的 小 批量 随机 梯度 下 降 : 其 
小 批量 随机 梯度 为 最 近 2 个 时 间 步 的 2 倍 小 批量 梯度 的 加 权 平 均 。 


In [6]: d2l.train_ch7(sgd_momentum, init_momentum_states(), 
{'lr': 0.02, 'momentum': 0.5}, features, labels) 


loss: 0.243307, 0.233371 sec per epoch 


0.5 


0.3 


0.0 0.5 1.0 1.5 2.0 
epoch 


将 动量 超 参 数 momentum 增 大 到 0.9， 这 时 依然 可 以 看 成 是 特殊 的 小 批量 随机 梯度 下 降 : 
其 小 批量 随机 梯度 为 最 近 10 个 时 间 步 的 10 倍 小 批量 梯度 的 加 权 平 均 。 我 们 先 保持 学 习 率 0.02 
不 变 。 


In [7]: d2l.train_ch7(sgd_momentum, init_momentum_states(), 
{'lr': 0.02, 'momentum': 0.9}, features, labels) 


loss: 0.249351, 0.257350 sec per epoch 
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可 见 目标 函数 值 在 后 期 迭代 过 程 中 的 变化 不 够 平滑 。 直 觉 上 ，10 倍 小 批量 梯度 比 2 倍 小 
批量 梯度 大 了 5 倍 ， 我 们 可 以 试 着 将 学 习 率 减 小 到 原来 的 1/5。 此 时 目标 函数 值 在 下 降 了 一 段 
时 间 后 变化 更 加 平滑 。 

In [8]: d2l.train_ch7(sgd_momentum, init_momentum_states(), 

{'lr': 0.004, 'momentum': 0.9}, features, labels) 


loss: 0.244458, 0.277555 sec per epoch 
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epoch 


7.4.4 简洁 实现 
在 Gluon 中 ， 只 需要 在 Trainer 实例 中 通过 momentum 来 指定 动量 超 参数 即 可 使 用 动 
量 法 。 


In [9]: d2l.train_gluon_ch7('sgd', {'learning_rate': 0.004, 'momentum': 0.9}, 
features, Labels) 


loss: 0.243096, 0.199614 sec per epoch 
0.50 
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loss 
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小 结 
© 动量 法 使 用 了 指数 加 权 移 动 平 均 的 思想 。 它 将 过 去 时 间 步 的 梯度 做 了 加 权 平 均 ， 且 权重 按时 
间 步 指数 衰减 。 
e 动量 法 使 得 相 邻 时 间 步 的 自 变 量 更 新 在 方向 上 更 加 一 致 。 


练习 
使 用 其 他 动量 超 参数 和 学 习 率 的 组 合 ， 观 察 并 分 析 实 验 结果 。 
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7.5 AdaGrad 算 法 


在 之 前 介绍 过 的 优化 算法 中 ， 目 标 函 数目 变量 的 每 一 个 元 素 在 相同 时 
间 步 都 使 用 同一 个 学 习 率 来 目 我 欠 代 。 举 个 例 于 ， 假 设 目标 函数 为 凡 A 
变量 为 一 个 二 维 向 量 [xi, x,] ， 该 向 量 中 每 一 个 元 素 在 迭代 时 都 使 用 相同 
的 学 习 率 。 例 如 ， 在 学 习 率 为 的 梯度 下 降 中 ， 元 系 1 和 x 都 使 用 相同 的 
学 习 率 RA BIS: 





O 0 
nenn, Xa cx- 
1 2 


在 7.4 节 里 我 们 看 到 ， 当 为 和 总 的 梯度 值 有 较 大 差别 时 ， 需 要 选择 足够 小 的 学 习 率 使 得 
自 变量 在 梯度 值 较 大 的 维度 上 不 发 散 。 但 这 样 会 导致 目 变 量 在 梯度 值 较 小 的 维度 上 运 代 过 慢 。 
动量 法 依赖 指数 加 权 移 动 平 均 使 得 目 变 量 的 更 新 方 同 更 加 一 致 ， 从 而 降低 发 向 的 可 能 。 本 市 我 
们 介绍 AdaGrad 算法 ， 它 根据 自 变 量 在 每 个 维度 的 梯度 值 的 大 小 来 调整 各 个 维度 上 的 学 习 率 ， 
从 而 避免 统一 的 学 习 率 难以 适应 所 有 维度 的 问题 ”。 


7.5.1 iz 


AdaGrad 算法 会 使 用 一 个 小 批量 随机 梯度 8 按 元 素平 方 的 累加 变量 %。 在 时 间 步 0， 
AdaGrad 将 so 中 每 个 元 素 初始 化 为 0。 在 时 间 步 少 首先 将 小 批量 随机 梯度 2, 按 元 素平 方 后 累 
加 到 变量 8 : 


S; <— S,_) + 8, © 8, 


其 中 © 是 按 元 素 相 乘 。 接 着 ， 我 们 将 目标 函数 目 变 量 中 每 个 元 素 的 学 习 率 通过 按 元 素 运 算 重 
新 调整 一 下 : 





X, & X; 一 Og, 


7/ 
Js, +e 
其 中 是 学 习 率 ，c 是 为 了 维持 数值 稳定 性 而 添加 的 常数 ， 如 105。 这 里 开 方 、 除 法 和 乘法 的 
运算 都 是 按 元 素 运算 的 。 这 些 按 元 素 运算 使 得 目标 函数 自 变 量 中 每 个 元 素 都 分 别 拥有 自己 的 
学 习 率 。 


7.5.2 特点 


需要 强调 的 是 ， 小 批量 随机 梯度 按 元 素平 方 的 累加 变量 s, 出 现在 学 习 率 的 分 母 项 中 。 因 
此 ， 如 果 目 标 函 数 有 关 自 变量 中 某 个 元 素 的 偏 导 数 一 直 都 较 大 ， 那 么 该 元 素 的 学 习 率 将 下 降 较 
快 ， 反 之 ， 如 果 目 标 函 数 有 关 自 变量 中 茶 个 元 素 的 偏 导 数 一 直 部 较 小 ， 那 么 该 元 系 的 学 习 率 
将 下 降 较 慢 。 然 而 ， 由 于 5 一直 在 累加 按 元 素平 方 的 梯度 ， 自 变量 中 每 个 元 素 的 学 习 率 在 达 
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代 过 程 中 一 直 在 降低 《或 不 变 )。 所 以 ， 当 学 习 率 在 迭代 早期 降 得 较 快 且 当 前 解 依 然 不 佳 时 ， 
AdaGrad 算法 在 友 代 后 期 由 于 学 习 率 过 小 ， 可 能 较 难 找到 一 个 有 用 的 解 。 


下 面 我 们 仍然 以 目标 函数 f(x) = 0.1x; +2x5 为 例 观察 AdaGrad 算法 对 自 变 量 的 迭代 轨迹 。 
我 们 实现 AdaGrad 算法 并 使 用 和 上 一 节 实 验 中 相同 的 学 习 率 0.4。 可 以 看 到 ， 自 变量 的 迭代 轨 
迹 较 平 滑 。 但 由 于 s, 的 累加 效果 使 学 习 率 不 断 衰 减 ， 自 变量 在 迭代 后 期 的 移动 幅度 较 小 。 


In [1]: %matplotlib inline 
import d2Lzh as d21 
import math 
from mxnet import nd 


def adagrad_2d(xl, x2, sl, s2): 
gl, g2, eps = 0.2 * xl, 4 x x2, le-6 # 前 两 项 为 自 变量 梯度 
Sive= gl 2 
S2 += g2 xx 2 
xl -= eta / math.sqrt(sl + eps) * gl 
x2 -= eta / math.sqrt(s2 + eps) * g2 
return x1;.x2, sl, s2 


def f_2d(x1, x2): 
return 0.1 * ww 2 + 2 * x2 xx 2 


eta = 0.4 
d21l.show_trace_2d(f_2d, d21l.train_2d(adagrad_2d) ) 


epoch 20, xl -2.382563, x2 -0.158591 


下 面 将 学 习 率 增 大 到 2。 可 以 看 到 自 变 量 更 为 迅速 地 逼近 了 最 优 解 。 


In [2]: eta = 2 
d2l.show_trace_2d(f_2d, d2l.train_2d(adagrad_2d)) 


epoch 20, x1 -0.002295, x2 -0.000000 
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7.5.3 ”从 零 开 始 实现 
同 动量 法 一 样 ，AdaGrad 算法 需要 对 每 个 自 变 量 维护 同 它 一 样 形状 的 状态 变量 。 我 们 根据 
AdaGrad 算法 中 的 公式 实现 该 算法 。 


In [3]: features, labels = d2l.get_data_ch7() 


def init_adagrad_states(): 
S_w = nd.zeros((features.shape[1], 1)) 
s_b = nd.zeros(1) 
return (s_w, s_b) 


def adagrad(params, states, hyperparams): 
eps = le-6 
for p, s in zip(params, states): 


s[:] += p.grad.square() 
p[:] -= hyperparams['1lr'] * p.grad / (s + eps).sqrt() 


与 7.3 市 中 的 实验 相 比 ， 这 里 使 用 更 大 的 学 习 率 来 训练 模型 。 


In [4]: d2l.train_ch7(adagrad, init_adagrad_states(), {'lr': 0.1}, features, labels) 


loss: 0.243480, 0.366687 sec per epoch 
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7.5.4 简洁 实现 


Wit ARPA “adagrad” HY) Trainer 实例 ， 我 们 便 可 使 用 Gluon 提供 的 AdaGrad 算法 来 训 
练 模型 。 


In [5]: d2l.train_gluon_ch7('adagrad', {'learning_rate': 0.1}, features, labels) 


loss: 0.242683, 0.392820 sec per epoch 
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小 结 
© AdaGrad 算法 在 迭代 过 程 中 不 断 调整 学 习 率 ， 并 让 目标 函数 自 变量 中 每 个 元 素 都 分 别 拥有 自 
己 的 学 习 率 。 
。 使 用 AdaGrad 算法 时 ， 自 变量 中 每 个 元 素 的 学 习 率 在 迭代 过 程 中 一 直 在 降低 〈 或 不 变 )。 


练习 
(1) 在 介绍 AdaGrad 算法 的 特点 时 ， 我 们 提 到 了 它 可 能 存在 的 问题 。 你 能 想到 什么 办 法 来 解决 
这 个 问题 ? 


(2) 在 实验 中 尝试 使 用 其 他 的 初始 学 习 率 ， 结 果 有 什么 变化 ? 





7.6 RMSProp 算 法 


我 们 在 7.5 节 中 提 到 ， 因 为 调整 学 习 率 时 分 母 上 的 变量 s, 一 直 在 累加 
按 元 素平 方 的 小 批量 随机 梯度 ， 所 以 目标 函数 自 变量 每 个 元 素 的 学 习 率 在 
迭代 过 程 中 一 直 在 降低 (或 不 变 )。 因 此 ， 当 学 习 率 在 迭代 早期 降 得 较 快 且 
当前 解 依然 不 佳 时 ，AdaGrad 算法 在 迭代 后 期 由 于 学 习 率 过 小 ， 可 能 较 难 
找到 一 个 有 用 的 解 。 为 了 解决 这 一 问题 ，RMSProp 算法 对 AdaGrad 算法 做 了 一 点 小 小 的 修改 。 
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该 算法 源 自 Coursera 上 的 一 门 课 ， 即 “机 器 学 习 的 神经 网 络 ”。 


7.6.1 算法 


我 们 在 7.4 节 里 介绍 过 指数 加 权 移 动 平均 。 不 同 于 AdaGrad 算法 里 状态 变量 S, 是 截至 时 间 
步 1 所 有 小 批量 随机 梯度 g 按 元 素平 方 和 ，RMSProp 算法 将 这 些 梯度 按 元 素平 方 做 指数 加 权 
移动 平均 。 具 体 来 说 ， 给 定 超 参 数 0 三 y <1, RMSProp 算法 在 时 间 步 1 二 0 计算 


Spt (=)g Og, 
和 AdaGrad 算法 一 样 ，RMSProp 算法 将 目标 函数 自 变 量 中 每 个 元 素 的 学 习 率 通过 按 元 素 运算 
重新 调整 ， 然 后 更 新 目 变 量 


Xi 《 X 一 © Zg, 


1] 
Js, +e 
Hp y EFIK, c 是 为 了 维持 数值 稳定 性 而 添加 的 常数 ， 如 10"。 因 为 RMSProp 算法 的 状态 
变量 是 对 平方 项 g Og 的 指数 加 权 移 动 平均 ， 所 以 可 以 看 作 最 近 1/(1 一 7) 个 时 间 步 的 小 批量 随 
机 梯度 平方 项 的 加 权 平 均 。 如 此 一 来 ， 自 变量 每 个 元 素 的 学 习 率 在 迭代 过 程 中 就 不 再 一 直 降 低 
(或 不 变 )。 


照例 ， 让 我 们 先 观察 RMSProp 算法 对 目标 函数 (x) = 0.1xi +2x7 中 自 变量 的 迭代 轨迹 。 
回忆 在 7.5 节 使 用 的 学 习 率 为 0.4 的 AdaGrad 算法 ， FEE IS Ne AE SO 但 在 
同样 的 学 习 率 下 ，RMSProp 算法 可 以 更 快 逼 近 最 优 解 。 


In [1]: %matplotlib inline 
import d2Lzh as d2l 
import math 
from mxnet import nd 


def rmsprop_2d(xl1, x2, sl, s2): 
gl, g2, eps = 0.2 * xl, 4 x x2, le-6 
sl = gamma * sl + (1 - gamma) * gl xx 2 
S2 = gamma * s2 + (1 - gamma) * g2 xx 2 
xl -= eta / math.sqrt(sl + eps) * gl 
x2 -= eta / math.sqrt(s2 + eps) * g2 
resurn KI, XZ; Si, S2 


Get f_2d(x1, x2): 
return 0.1 * xl ** 2 + 2 * x2 xx 2 


eta, gamma = 0.4, 0.9 
d21l.show_trace_2d(f_2d, d2l.train_2d(rmsprop_2d) ) 


epoch 20, x1 -0.010599, x2 0.000000 
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76.2 ”从 零 开 始 实现 
接 下 来 按照 RMSProp 算法 中 的 公式 实现 该 算法 。 


In [2]: features, labels = d2l.get_data_ch7() 


def init_rmsprop_states(): 
s_w = nd.zeros((features.shape[1], 1)) 
s_b = nd.zeros(1) 


return (s_w, s_b) 


def rmsprop(params, states, hyperparams) : 
gamma, eps = hyperparams['gamma'], le-6 
for p, s in zip(params, states): 
s{:] = gamma * s + (1 - gamma) * p.grad.square() 
p[:] -= hyperparams['lr'] * p.grad / (s + eps).sqrt() 


我 们 将 初始 学 习 率 设 为 0.01， 并 将 超 参 数 设 为 0.9。 此 时 ， 变 量 % 可 看 作 最 近 1/(1- 
0.9) =10 个 时 间 步 的 平方 项 8 © 8 的 加 权 平 均 。 


In [3]: d2l.train_ch7(rmsprop, init_rmsprop_states(), {'lr': 0.01, 'gamma': 0.9}, 
features, Labels) 


loss: 0.243877, 0.395199 sec per epoch 
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7.6.3 简洁 实现 


通过 名 称 为 “rmsprop” 的 Trainer 实例 ， 我 们 便 可 使 用 Gluon 提供 的 RMSProp 算法 来 训 
练 模型 。 注 意 ， 超 参数 y 通过 gammal 指定 。 


In [4]: d2l.train_gluon_ch7('rmsprop', {'learning_rate': 0.01, 'gammal': 0.9}, 
features, Labels) 


loss: 0.243835, 0.248232 sec per epoch 


0.45 


0.0 0.5 1.0 Lo 2.0 
epoch 


小 结 
e RMSProp 算法 和 AdaGrad 算法 的 不 同 在 于 ，RMSProp 算法 使 用 了 小 批量 随机 梯度 按 元 素平 
方 的 指数 加 权 移 动 平均 来 调整 学 习 率 。 


练习 
(1) 把 yy 的 值 设 为 1， 实验 结果 有 什么 变化 ? 为 什么 ? 


(2) 试 着 使 用 其 他 的 初始 学 习 率 和 7 超 参 数 的 组 合 ， 观 察 并 分 析 实 验 结果 。 





7.7 AdaDelta 算 法 

除了 RMSProp 算法 以 外 ， 另 一 个 常用 优化 算法 AdaDelta 算法 也 针对 [al 
AdaGrad FEKTE EARJE WIA) RE BOER EA FA APRA TA TE. AD qe 
的 是 ，AdaDelta 算法 没有 学 习 率 这 一 超 参数 。 = 









7.7.1 算法 
AdaDelta 算法 也 像 RMSProp 算法 一 样 ， 使 用 了 小 批量 随机 梯度 g, 按 元 素平 方 的 指数 加 


7.7 AdaDelta 算法 + 213° 


权 移 动 平 均 变 量 s,。 在 时 间 步 0， 它 的 所 有 元 素 被 初始 化 为 0。 给 定 超 参数 0 三 p 二 1 (对 应 
RMSProp 算法 中 的 y )， 在 时 间 步 1>>0， 同 RMSProp 算法 一 样 计算 


S — ps,,+(1-p)g, Og, 
与 RMSProp 算法 不 同 的 是 ，AdaDelta 算法 还 维护 一 个 额外 的 状态 变量 Ax， 其 元 素 同 样 
在 时 间 步 0 时 被 初始 化 为 0。 我 们 使 用 Ax 1 来 计算 自 变量 的 变化 量 : 


S$,+€ 
其 中 < 是 为 了 维持 数值 稳定 性 而 添加 的 常数 ， 如 10 。 接 着 更 新 自 变量 : 
X, X11—g 
最 后 ， 我 们 使 用 Ax, 来 记录 自 变 量变 化 量 8, 按 元 素平 方 的 指数 加 权 移 动 平均 : 
Ax, <— pAx,_, +(1-p)g, Og, 


可 以 看 到 ， 如 不 考虑 e 的 影响 ，AdaDelta 算法 与 RMSProp 算法 的 不 同 之 处 在 于 使 用 JAX, 来 
替代 超 参 数 1。 


7.7.2 从 零 开 始 实现 


AdaDelta 算法 需要 对 每 个 自 变量 维护 两 个 状态 变量 ， 即 s, 和 Ax,。 我 们 按 AdaDelta 算法 
中 的 公式 实现 该 算法 。 
In [1]: %matplotlib inline 


import d2Lzh as d2L 
from mxnet import nd 


features, Labels = d2l.get_data_ch7() 


def init_adadelta_states(): 
S_w, S_b = nd.zeros((features.shape[1], 1)), nd.zeros(1) 
delta_w, delta_b = nd.zeros((features.shape[1], 1)), nd.zeros(1) 
return ((s_w, delta_w), (s_b, delta_b)) 


def adadelta(params, states, hyperparams): 
rho, eps = hyperparams['rho'], le-5 
for p, (s, delta) in zip(params, states): 
s[:] = rho * s + (1 - rho) * p.grad.square() 
g = ((delta + eps).sqrt() / (s + eps).sqrt()) * p.grad 
ke Bean 才 
delta[:] = rho * delta + (1 = rho) * g * g 


使 用 超 参数 p = 0.9 来 训练 模型 。 


In [2]: d2l.train_ch7(adadelta, init_adadelta_states(), {'rho': 0.9}, features, 
labels) 


loss: 0.247759, 0.500291 sec per epoch 
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7.7.3 简洁 实现 


通过 名 称 为 “adadelta” 的 Trainer 实例 ， 我 们 便 可 使 用 Gluon 提供 的 AdaDelta HIE. € 
的 超 参 数 可 以 通过 rho 来 指定 。 


In [3]: d2l.train_gluon_ch7('adadelta', {'rho': 0.9}, features, Labels) 


loss: 0.247549, 0.440736 sec per epoch 
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小 结 
。 AdaDelta 算法 没有 学 习 率 超 参 数 ， 它 通过 使 用 有 关 自 变量 更 新 量 平方 的 指数 加 权 移 动 平均 的 
项 来 替代 RMSProp 算法 中 的 学 习 率 。 


练习 
调节 AdaDelta 算法 中 的 超 参 数 p 的 值 ， 观 察 实 验 结 果 。 
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7.8 Adam 算 法 


Adam 算法 在 RMSProp 算法 基础 上 对 小 批量 随机 梯度 也 做 了 指数 加 权 [m]; 
BJF. 。 下 面 我 们 来 介绍 这 个 算法 。 









[四 ] 


i 
7.8.1 算法 [m] 


Adam 算法 使 用 了 动量 变量 w 和 RMSProp 算法 中 小 批量 随机 梯度 按 元 素平 方 的 指数 加 权 
移动 平均 变量 %， 并 在 时 间 步 0 将 它们 中 每 个 元 素 初 始 化 为 0。 给 定 超 参 数 0 志 pl 1 (算法 
作者 建议 设 为 0.9)， 时 间 步 1 的 动量 变量 v 即 小 批量 随机 梯度 8 的 指数 加 权 移 动 平 均 : 


vy, & Bvt+(l-A)g, 


和 RMSProp 算法 中 一 样 ， 给 定 超 参 数 0 科 大 1《〈 算 法 作者 建议 设 为 0.999)， 将 小 批量 
随机 梯度 按 元 素平 方 后 的 项 8, © g, 做 指数 加 权 移 动 平 均 得 到 S, : 


s, — fs, tO- B,)g, Og, 


由 于 我 们 将 w 和 so 中 的 元 素 都 初始 化 为 0， 在 时 间 步 t FRAT v, = (1-8) Din Al Si。 将 
过 去 各 时 间 步 小 批量 随机 梯度 的 权 值 相 加 ， 得 到 (1-B) A =1- 8 。 需 要 注意 的 是 ， 当 
1 较 小 时 ， 过 去 各 时 间 步 小 批量 随机 梯度 权 值 之 和 会 较 小 。 例 如 ， 当 B=0.9 时 , v, =0.1g,. 
为 了 消除 这 样 的 影响 ， 对 于 任意 时 间 步 RIITTA v 再 除 以 1- 让， 从 而 使 过 去 各 时 间 步 
小 批量 随机 梯度 权 值 之 和 为 1。 这 也 叫 作 偏差 修正 。 在 Adam 算法 中 ， 我 们 对 变量 v 和 均 作 
偏差 修正 : 


V; 
-A 
S; 
1-2; 
接 下 来 ，Adam 算法 使 用 以 上 偏差 修正 后 的 变量 六 和 $， 将 模型 参数 中 每 个 元 素 的 学 习 率 
通过 按 元 素 运算 重新 调整 : 





V, 《一 





Dy e 


HP y 是 学 习 率 ，e 是 为 了 维持 数值 稳定 性 而 添加 的 常数 ， 如 10“。 和 AdaGrad 算法 、RMSProp 
算法 以 及 AdaDelta 算法 一 样 ， 目 标 函 数 自 变量 中 每 个 元 素 都 分 别 拥有 上 自己 的 学 习 率 。 最 后 ， 


r 
X, — Xi — 8 
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7.8.2 ”从 零 开 始 实现 


我 们 按照 Adam 算法 中 的 公式 实现 该 算法 。 其 中 时 间 步 1 通过 hyperparams 参数 传 入 
adam IŽ. 


In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet import nd 


features, labels = d2l.get_data_ch7() 


def init_adam_states(): 
nd.zeros((features.shape[1], 1)), nd.zeros(1) 
s_w, Sb = nd.zeros((features.shape[1], 1)), nd.zeros(1) 
return ((v_w, s_w), (v_b, s_b)) 


v_w, v_b 


def adam(params, states, hyperparams): 
betal, beta2, eps = 0.9, 0.999, le-6 
for p, (v, s) in zip(params, states): 
v[:] = betal x v + (1 - betal) * p.grad 
s[:] = beta2 * s + (1 - beta2) * p.grad.square() 
v_bias_corr = v / (1 - betal ** hyperparams['t']) 
s_bias_corr = s / (1 - beta2 xx hyperparams['t']) 
p[:] -= hyperparams['\Lr'] * v_bias_corr / (s_bias_corr.sqrt() + eps) 
hyperparams['t'] += 1 


使 用 学 习 率 为 0.01 的 Adam 算法 来 训练 模型 。 


In [2]: d2l.train_ch7(adam, init_adam_states(), {'lr': 0.01, 't': 1}, features, 
labels) 


loss: 0.243475, 0.507077 sec per epoch 
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7.8.3 简洁 实现 
通过 名 称 为 “adam” 的 Trainer 实例 ， 我 们 便 可 使 用 Gluon 提供 的 Adam 算法 。 
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In [3]: d2l.train_gluon_ch7('adam', {'learning_rate': 0.01}, features, labels) 


loss: 0.244691, 0.198776 sec per epoch 
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小 结 


。 Adam 算法 在 RMSProp 算法 的 基础 上 对 小 批量 随机 梯度 也 做 了 指数 加 权 移 动 平 均 。 
。 Adam 算法 使 用 了 偏差 修正 。 


练习 
(1) 调节 学 习 率 ， 观 察 并 分 析 实 验 结果 。 
(2) 有 人 说 Adam 算法 是 RMSProp 算法 与 动量 法 的 结合 。 碟 








在 深度 学 习 中 ， 数 据 集 通常 很 大 而 且 模型 计算 往往 很 复杂 。 因 此 ， 我 们 十 分 关注 计算 性 
能 。 本 章 将 重点 介绍 影响 计算 性 能 的 重要 因子 : 命令 式 编程 、 符 号 式 编程 、 异 步 计 算 、 目 动 并 
行 计算 和 多 GPU 计算 。 通 过 本 章 的 学 习 ， 你 将 很 可 能 进一步 提升 前 几 章 已 实现 的 模型 的 计算 
性 能 ， 例 如 ， 在 不 影响 模型 精度 的 前 提 下 减少 模型 的 训练 时 间 。 


8.1 命令 式 和 符号 式 混 合 编程 扫 码 直达 讨论 区 


本 书 到 目前 为 止 一 直 都 在 使 用 命令 式 编程 ， 它 使 用 编程 语句 改变 程序 
状态 。 考 虑 下 面 这 段 简单 的 命令 式 程 序 。 


In [1]: def add(a, b): 
return a+b 





def fancy_func(a, b, c, d): 
e = add(a, b) 
f = add(c, d) 
g = add(e, f) 
return g 


fancy_func(1, 2, 3, 4) 


Out[1]: 10 


和 我 们 预期 的 一 样 ， 在 运行 语句 e = add(a, b) Rf, Python 会 做 加 法 运算 并 将 结果 存储 
在 变量 e 中 ， 从 而 令 程序 的 状态 发 生 改变 。 类 似 地 ， 后 面 的 2 条 语句 f= add(c，d) 和 8g = 
add(e, f) 会 依次 做 加 法 运算 并 存储 变量 。 


虽然 使 用 命令 式 编程 很 方便 ， 但 它 的 运行 可 能 很 慢 。 一 方面 ， 即 使 fancy_func 函数 中 的 
add 是 被 重复 调用 的 函数 ，Python 也 会 逐一 执行 这 3 条 函数 调用 语句 。 另 一 方面 ， 我 们 需要 保存 
变量 e 和 ff 的 值 直到 fancy_func 中 所 有 语句 执行 结束 。 这 是 因为 在 执行 e= add(a, b) 和 f = 
add(c, d) 这 2 条 语句 之 后 我 们 并 不 知道 变量 e 和 上 是 否 会 被 程序 的 其 他 部 分 使 用 。 


与 命令 式 编程 不 同 ， 符 号 式 编程 通常 在 计算 流程 完全 定义 好 后 才 被 执行 。 多 个 深度 学 习 框 染 ， 
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如 Theano 和 TensorFlow， 都 使 用 了 符号 式 编程 。 通 常 ， 符 号 式 编程 的 程序 需要 下 面 3 个 步骤 : 
(1) 定义 计算 流程 ; 
(2) 把 计算 流程 编译 成 可 执行 的 程序 ; 
(3) 给 定 输入 ， 调 用 编译 好 的 程序 执行 。 
下 面 我 们 用 符号 式 编 程 重新 实现 本 节 开 头 给 出 的 命令 式 编程 代码 。 


In [2]: def add_str(): 
return ''' 
def add(a, b): 

return a+b 


def fancy_func_str(): 
return ''' 

def fancy_func(a, b, c, d): 
e = add(a, b) 
f = add(c, d) 
g = add(e, f) 
return g 


def evoke_str(): 
return add_str() + fancy_func_str() + ''' 
print(fancy_func(1, 2, 3, 4)) 


prog = evoke_str() 

print (prog) 

y = compile(prog, '', '‘exec') 
exec(y) 


def add(a, b): 
return a +b 


def fancy_func(a, b, c, d): 
e = add(a, b) 
f = add(c, d) 
g = add(e, f) 
return g 


print(fancy_func(1, 2, 3, 4)) 


10 


以 上 定义 的 3 个 函数 都 仅 以 字符 串 的 形式 返回 计算 流程 。 最 后 ， 我 们 通过 compile 函数 
编译 完整 的 计算 流程 并 运行 。 由 于 在 编译 时 系统 能 够 完整 地 获取 整个 程序 ， 因 此 有 更 多 空间 
优化 计算 。 例 如 ， 编 译 的 时 候 可 以 将 程序 改写 成 print((1+2) + (3+4))， 甚 至 直接 改写 成 
print(10)。 这 样 不 仅 减少 了 函数 调用 ， 还 节省 了 内 存 。 


对 比 这 两 种 编程 方式 ， 我 们 可 以 看 到 以 下 两 点 。 
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© 命令 式 编程 更 方便 。 当 我 们 在 Python 里 使 用 命令 式 编 程 时 ， 大 部 分 代码 编写 起 来 都 
很 直观 。 同 时 ， 命 令 式 编程 更 容易 调试 。 这 是 因为 我 们 可 以 很 方便 地 获取 并 打印 所 有 
的 中 间 变 量 值 ， 或 者 使 用 Python 的 调试 工具 。 

© 符号 式 编 程 更 高 效 并 更 容易 移植 。 一 方面 ， 在 编译 的 时 候 系统 容易 做 更 多 优化 ; 另 一 
方面 ， 符 号 式 编程 可 以 将 程序 变 成 一 个 与 Python 无 关 的 格式 ， 从 而 可 以 使 程序 在 非 
Python 环境 下 运行 ， 以 避 开 Python 解释 器 的 性 能 问题 。 


8.1.1 混合 式 编 程 取 两 者 之 长 


大 部 分 深度 学 习 框 架 在 命令 式 编 程 和 符号 式 编程 之 间 二 选 一 。 例 如 ，Theano 和 受 其 局 发 
的 后 来 者 TensorFlow 使 用 了 符号 式 编程 ，Chainer 和 它 的 追随 者 PyTorch 使 用 了 命令 式 编程 。 
开发 人 员 在 设计 Gluon 时 思考 了 这 个 问题 ， 有 没有 可 能 既得 到 命令 式 编 程 的 好 处 ， 叉 侍 受 从 与 
式 编程 的 优势 ? 开发 者 们 认为 ， 用 户 应 该 用 纯 命 令 式 编程 进行 开发 和 调试 ， 当 需要 产品 级 别 的 
计算 性 能 和 部 署 时 ， 用 户 可 以 将 大 部 分 命令 式 程序 转换 成 符号 式 程序 来 运行 。Gluon 通过 提供 
混合 式 编程 的 方式 做 到 了 这 一 后。 


在 混合 式 编程 中 ， 我 们 可 以 通过 使 用 HybridBlock 类 或 者 HybridSequential 类 构建 模 
型 。 默 认 情 况 下 ， 它 们 和 Block 类 或 者 Sequential 类 一 样 依据 命令 式 编 程 的 方式 执行 。 当 我 
们 调用 hybridize 函数 后 ，Gluon 会 转换 成 依据 符号 式 编程 的 方式 执行 。 事 实 上 ， 绝 大 多 数 模 
型 都 可 以 接受 这 样 的 混合 式 编程 的 执行 方式 。 


本 节 将 通过 实验 展示 混合 式 编程 的 魅力 。 


8.1.2 使 用 HybridSequential 类 构造 模型 


我 们 之 前 学 习 了 如 何 使 用 Sequential 类 来 串联 多 个 层 。 为 了 使 用 混合 式 编 程 ， 下 面 我 们 
将 Sequential 类 替换 成 HybridSequential 类 。 
In [3]: from mxnet import nd, sym 
from mxnet.gluon import nn 
import time 


def get_net(): 
net = nn.HybridSequential() # 这 里 创建 HybridSequential 实 例 
net.add(nn.Dense(256, activation='relu'), 
nn.Dense(128, activation='relu'), 
nn.Dense(2) ) 
net. initialize() 
return net 


x = nd.random.normal(shape=(1, 512)) 
net = get_net() 
net (x) 


Out[3]: 
[[0.08827581 0.00505182] | 
<NDArray 1x2 @cpu(0)> 
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我 们 可 以 通过 调用 hybridize 函数 来 编译 和 优化 HybridSequential 实例 中 串联 的 层 的 
计算 。 模 型 的 计算 结果 不 变 。 


In [4]: net.hybridize() 
net (x) 


Out[4]: 
[[©.08827581 0.00505182] ] 
<NDArray 1x2 @cpu(@)> 
需要 注意 的 是 ， 只 有 继承 HybridBLock 类 的 层 才 会 被 优化 计算 。 例 如 ，HybridSsequentiat 类 
和 Gluon 提供 的 Dense 类 都 是 HybridBLock 类 的 子 类 ， 它 们 都 会 被 优化 计算 。 如 果 一 个 层 只 是 
继承 自 Block 类 而 不 是 HybridBlock 类 ， 那 么 它 将 不 会 被 优化 。 


1. 计算 性 能 


下 面 通过 比较 调用 hybridize 函数 前 后 的 计算 时 间 来 展示 符号 式 编程 的 性 能 提升 。 这 里 
我 们 对 1 000 次 net 模型 计算 计时 。 在 net 调用 hybridize 函数 前 后 ， 它 分 别 依据 命令 式 编 
程 和 符号 式 编程 做 模型 计算 。 

In [5]: def benchmark(net, x): 

start = time.time() 
for i. in range(1000): 
_ = net(x) 


nd.waitall() # 等 待 所 有 计算 完成 方便 计时 


return time.time() - start 


net = get_net() 
print('before hybridizing: %.4f sec' % (benchmark(net, x))) 
net. hybridize() 
print('after hybridizing: %.4f sec' % (benchmark(net, x))) 


before hybridizing: 0.3768 sec 
after hybridizing: 0.2560 sec 


由 上 述 结果 可 见 ， 在 一 个 HybridSequential 实例 调用 hybridize 函数 后 ， 它 可 以 通过 
符号 式 编 程 提 升 计 算 性 能 。 


2. 获取 符号 式 程序 


在 模型 net 根据 输入 计算 模型 输出 后 ， 例 如 benchmark 函数 中 的 net(x)， 我 们 就 可 以 通 
过 export 函数 将 符号 式 程 序 和 模型 参数 保存 到 硬盘 。 


In [6]: net.export('my_mlp') 


此 时 生成 的 json 和 params 文件 分 别 为 符号 式 程序 和 模型 参数 。 它 们 可 以 被 Python 或 MXNet 
支持 的 其 他 前 端 语言 读 取 ， 如 CH, R, Scala, Perl 和 其 他 语言 。 这 样 ， 我 们 就 可 以 很 方便 地 
使 用 其 他 前 端 语言 或 在 其 他 设备 上 部 署 训练 好 的 模型 。 同 时 ， 由 于 部 署 时 使 用 的 是 符号 式 程 
序 ， 计 算 性 能 往往 比 命令 式 程 序 的 性 能 更 好 。 
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在 MXNet 中 ， 符 号 式 程序 指 的 是 基于 Symbol 类 型 的 程序 。 我 们 知道 ， 当 给 net 提供 
NDArray 类 型 的 输入 x 后 ，net(x) 会 根据 x 直接 计算 模型 输出 并 返回 结果 。 对 于 调用 过 
hybridize 函数 后 的 模型 ， 我 们 还 可 以 给 它 输入 一 个 Symbol 类 型 的 变量 ，net(x) 会 返回 
Symbol 类 型 的 结果 。 


In [7]: x = sym.var('data') 
net (x) 


Out[7]: <Symbol dense5_fwd> 


8.1.3 使 用 HybridBlock 类 构造 模型 


和 Sequential 类 与 Block 类 之 间 的 关系 一 样 ，HybridSequential 类 是 HybridBLock 类 的 
子 类 。 与 Block 实例 需要 实现 forward 函数 不 太一 样 的 是 ， 对 于 HybridBLock 实例 ， 我 们 需要 实 
现 hybrid_forward 44k. 


前 面 我 们 展示 了 调用 hybridize 函数 后 的 模型 可 以 获得 更 好 的 计算 性 能 和 可 移植 
性 。 此 外 ， 调 用 hybridize 函数 后 的 模型 会 影响 灵活 性 。 为 了 解释 这 一 点 ， 我 们 先 使 用 
HybridBLock 类 构造 模型 。 


In [8]: class HybridNet(nn.HybridBlock) : 
def __init__(self, **kwargs): 
super (HybridNet, self).__init__(**kwargs) 
self.hidden = nn.Dense(10) 
self.output = nn.Dense(2) 


def hybrid_forward(self, F, x): 
print('F: ', F) j 
print('x: ', x) 

x = F.relu(self.hidden(x) ) 
print('hidden: ', x) 
return self.output(x) 


在 继承 HybridBlock 类 时 ， 我 们 需要 在 hybrid_forward 函数 中 添加 额外 的 输入 Fo R 


们 知道 ，MXNet 既 有 基于 命令 式 编程 的 NDArray 类 ， 又 有 基于 符号 式 编程 的 Symbol K. H 
于 这 两 个 类 的 函数 基本 一 致 ，MXNet 会 根据 输入 来 决定 F 使 用 NDArray 或 Symbol. 


下 面 创建 了 一 个 HybridBlock 实例 。 可 以 看 到 ， 在 默认 情况 下 F 使 用 NDArray。 而 且 ， 
我 们 打印 出 了 输入 x 和 使 用 ReLU 激活 函数 的 隐藏 层 的 输出 。 


In [9]: net = HybridNet() 
net. initialize() 
x = nd.random.normal(shape=(1, 4)) 
net (x) 


F: <module 'mxnet.ndarray' from '/home/ubuntu/miniconda3/envs/d2l-zh-build/lib/python 
一 3.6/site-packages/mxnet/ndarray/__init__.py'> 

x! 

[[-0.12225834 0.5429998 -0.9469352 0.59643304] | 

<NDArray 1x4 @cpu(0)> 
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hidden: 
[[0.11134676 0.04770704 0.05341475 0. 0.08091211 0. 
0. 0.04143535 0. 0. ]] 


<NDArray 1x10 @cpu(0)> 


Out[9]: 
[[0.00370749 0.00134991] ] 
<NDArray 1x2 @cpu(0)> 


再 运行 一 次 前 向 计算 会 得 到 同样 的 结果 。 
In [10]: net(x) i 


F: <module 'mxnet.ndarray' from '/home/ubuntu/miniconda3/envs/d2l-zh-build/lib/python 
+ 3.6/site-packages/mxnet/ndarray/__init__.py'> 

x; 

[[-0.12225834 0.5429998 -0.9469352 ©.59643304] | 

<NDArray 1x4 @cpu(0)> 


hidden: 
[[0.11134676 0.04770704 9.05341475 0. ©.08091211 0. 
0. 0.04143535 0. 0. ]] 


<NDArray 1x10 @cpu(0)> 


Out[10]: 
[[0.00370749 ©.00134991] ] 
<NDArray 1x2 @cpu(Q)> 


接 下 来 看 看 调用 hybridize 函数 后 会 发 生 什 么 。 


In [11]: net.hybridize() 
net (x) 


F: <module 'mxnet.symbol' from '/home/ubuntu/miniconda3/envs/d21l-zh-build/lib/python3 
一 .6/site-packages/mxnet/symbol/__init__.py'> 

x: <Symbol data> 

hidden: <Symbol hybridnet0_reluQ> 


Out[11]: 
[[9.900370749 0.00134991] | 
<NDArray 1x2 @cpu(Q)> 


可 以 看 到 ，F 变 成 了 Symbol。 而 且 ， 虽 然 输 入 数据 还 是 NDArray， 但 在 hybrid_forward 
函数 里 ， 相 同 输入 和 中 间 输 出 全 部 变 成 了 Symbol 类 型 。 

再 运行 一 次 前 向 计算 看 看 。 

In [12]: net(x) 

Out[12]: 


[[0.00370749 0.00134991) | 
<NDArray 1x2 @cpu(0)> 


可 以 看 到 ，hybrid_forward 函数 里 定义 的 3 条 打印 语句 都 没有 打印 任何 东西 。 这 是 因 
为 上 一 次 在 调用 hybridize 函数 后 运行 net(x) 的 时 候 ， 符 号 式 程序 已 经 得 到 。 之 后 再 运行 


。224。 第 8 章 计算 性 能 


net (x) 的 时 候 MXNet 将 不 再 访问 Python 代码 ， 而 是 直接 在 C++ 后 端 执 行 符 写 式 程序 。 这 也 
是 调用 hybridize 函数 后 模型 计算 性 能 会 提升 的 一 个 原因 。 但 它 可 能 的 问题 在 于 ， 我 们 损失 
了 写 程序 的 灵活 性 。 在 上 面 这 个 例子 中 ， 如 果 我 们 希望 使 用 那 3 条 打印 语句 调试 代码 ， 执 行 符 
号 式 程序 时 会 跳 过 它们 无 法 打印 。 此 外 ， 对 于 少数 像 asnumpy 这 样 的 Symbol 所 不 文 持 的 函数 ， 
以 及 像 a +=b 和 a[:] =a+b( 需 改写 为 a = a+b) 这 样 的 原 地 (in-place) 操作 ， 我 们 无 法 在 
hybrid_forward 函数 中 使 用 并 在 调用 hybridize 函数 后 进行 前 向 计算 。 


人 小结 
© 命令 式 编 程 和 符号 式 编程 各 有 优 劣 。MXNet 通过 混合 式 编程 取 二 者 之 长 。 
e 通过 HybridSequential 类 和 HybridBLock 类 构建 的 模型 可 以 调用 hybridize 函数 将 
命令 式 程序 转 成 符号 式 程序 。 建 议 大 家 使 用 这 种 方法 获得 计算 性 能 的 提升 。 


练习 

(1) 在 本 节 HybridNet 类 的 hybrid_forward 函数 中 第 一 行 添 加 x.asnumpy()， 运 行 本 节 
的 全 部 代码 ， 观 察 并 分 析 报 错 的 位 置 和 错误 类 型 。 

(2) 如 果 在 hybrid_forward 函数 中 加 入 Python 的 if 和 for 语句 会 怎么 样 ? 

(3) 回顾 前 面 几 章 中 你 感 兴趣 的 模型 ， 改 用 HybridBLock 类 或 HybridSequential 类 实现 。 








8.2 ”异步 计算 


MXNet 使 用 异步 计算 来 提升 计算 性 能 。 理 解 它 的 工作 原理 既 有 助 于 开 [mj ig [m] 
发 更 高 效 的 程序 ， 又 有 助 于 在 内 存 资源 有 限 的 情况 下 主动 降低 计算 性 能 1. 
而 减 小 内 存 开销 。 我 们 先导 入 本 节 中 实验 需要 的 包 或 模块 。 
In [1]: from mxnet import autograd, gluon, nd 
from mxnet.gluon import loss as gloss, nn 
import os 


import subprocess 
import time 


8.2.1 MXNet 中 的 异步 计算 


广义 上 讲 ，MXNet 包括 用 户 直接 用 来 交互 的 前 端 和 系统 用 来 执行 计算 的 后 端 。 例 如 ， 用 
户 可 以 使 用 不 同 的 前 端 语言 编写 MXNet 程序 ， 如 Python, R, Scala 和 C++。 无 论 使 用 何 种 前 
痕 编 程 语言 ，MXNet 程序 的 执行 主要 都 发 生 在 C++ 实现 的 后 端 。 换 句 话 说， 用 户 写 好 的 前 端 
MXNet 程序 会 传 给 后 端 执行 计算 。 后 端 有 目 己 的 线程 在 队列 中 不 断 收集 任务 并 执行 它们 。 


MXNet 通过 前 问 线 程 和 后 端 线程 的 交互 实现 异步 计算 。 异 步 计 算是 指 ， 前 端 线程 无 须 等 
竺 当前 指令 从 后 端 线程 返回 结果 就 继续 执行 后 面 的 指令 。 为 了 便于 解释 ， 假 设 Python 前 端 线 
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程 调用 以 下 4 条 指令 。 
In [2]: a = nd.ones((1, 2)) 
b = nd.ones((1, 2)) 
c=a*x dD + 2 
C 
Out[2]: 
[{3. 3.]] 


<NDArray 1x2 @cpu(0)> 


在 异步 计算 中 ，Python 前 端 线程 执行 前 3 条 语句 的 时 候 ， 仅 仅 是 把 任务 放 进 后 端的 队列 里 
就 返回 了 。 当 最 后 一 条 语句 需要 打印 计算 结果 时 ，Python 前 端 线程 会 等 待 C++ 后 端 线程 把 变 
量 c 的 结果 计算 完 。 此 设计 的 一 个 好 处 是 ， 这 里 的 Python 前 端 线程 不 需要 做 实际 计算 。 因 此 ， 
无 论 Python 的 性 能 如 何 ， 它 对 整个 程序 性 能 的 影响 很 小 。 只 要 C++ 后 端 足够 高 效 ， 那 么 不 管 
前 端 编程 语言 性 能 如 何 ，MXNet 都 可 以 提供 一 致 的 高 性 能 。 


为 了 演示 异步 计算 的 性 能 ， 我 们 先 实现 一 个 简单 的 计时 类 。 
In [3]: class Benchmark(): # 本 类 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def __init__(self, prefix=None): 
self.prefix = prefix + ' ' if prefix else '' 


def __enter__(self): 
self.start = time.time() 


def __exit__(self, xargs): 
print('%stime: %.4f sec' % (self.prefix, time.time() - self.start)) 
下 面 的 例子 通过 计时 来 展示 异步 计算 的 效果 。 可 以 看 到 ， 当 y = nd.dot(x,x).sum() B 
回 的 时 候 并 没有 等 待 变量 y 真正 被 计算 完 。 只 有 当 print 函数 需要 打印 变量 y 时 才 必 须 等 行 
它 计 算 完 。 
In [4]: with Benchmark('Workloads are queued.'): 


nd.random.uniform(shape=(2000, 2000) ) 


x = 
y = nd.dot(x, x).sum() 


with Benchmark('Workloads are finished.'): 
print('sum =', y) 


Workloads are queued. time: 0.0007 sec 
sum = 

[2.0003661e+09 | 

<NDArray 1 @cpu(Q)> 

Workloads are finished. time: 0.1463 sec 


的 确 ， 除 非 我 们 需要 打印 或 者 保存 计算 结果 ， 否 则 我 们 基本 无 须 关 心目 前 结果 在 内 存 中 是 


否 已 经 计算 好 了 。 只 要 数据 是 保存 在 NDArray 里 并 使 用 MXNet 提供 的 运算 符 ，MXNet 将 默认 
使 用 异步 计算 来 获取 高 计算 性 能 。 
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i i nL ee 
82.2 ”用 同步 函数 让 前 端 等 待 计算 结果 

除了 刚刚 介绍 的 print 函数 外 ， 我 们 还 有 其 他 方法 让 前 端 线程 等 待 后 端的 计算 结果 完成 。 
我 们 可 以 使 用 wait_to_read 函数 让 前 端 等 待 某 个 的 NDArray 的 计算 结果 完成 ， 再 执行 前 端 
中 后 面 的 语句 。 或 者 ， 我 们 可 以 用 waitall 函数 令 前 端 等 符 前 面 所 有 计算 结果 完成 。 后 者 是 
性 能 测试 中 和 常用 的 方法 。 

下 面 是 使 用 wait_to_read 函数 的 例子 。 输 出 用 时 包含 了 变量 y 的 计算 时 间 。 


In [5]: with Benchmark(): 
y = nd.dot(x, x) 
y.wait_to_read() 


time: 0.0353 sec 


下 面 是 使 用 waitall 函数 的 例子 。 输 出 用 时 包含 了 变量 y 和 变量 z 的 计算 时 间 。 


In [6]: with Benchmark(): 
y = nd.dot(x, x) 
z = nd.dot(x, x) 
nd.waitall() 


time: 0.0655 sec 
此 外 ， 任 何 将 NDA ray 转换 成 其 他 不 支持 异步 计算 的 数据 结构 的 操作 都 会 让 前 端 等 待 计 
算 结果 。 例 如 ， 当 我 们 调用 asnumpy 函数 和 asscalar 函数 时 。 


In [7]: with Benchmark(): 
y = nd.dot(x, x) 
y.asnumpy () 


time: 0.0367 sec 


In [8]: with Benchmark(): 
y = nd.dot(x, x) 


y.norm() .asscalar() 
time: 0.1305 sec 
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print PR ACS fi AZ iL Bi i Se J itn tT RATA. KB PRA > Ba. 
8.2.3 ”使 用 异步 计算 提升 计算 性 能 


在 下 面 的 例子 中 ， 我 们 用 for 循环 不 断 对 变量 y 赋值 。 当 在 for 循环 内 使 用 同步 函数 
wait_to_read 时 ， 每 次 赋值 不 使 用 异步 计算 ; 当 在 for 循环 外 使 用 同步 函数 waitall 时 ， 则 
使 用 异步 计算 。 
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In [9]: with Benchmark('synchronous.'): 
for _ in range(1000): 


y 2X. + = 
y.wait_to_read() 


with Benchmark('asynchronous.'): 
for _ in range(1000): 
y=xt+1l 
nd.waitall() 


synchronous. time: 0.4884 sec 
asynchronous. time: 0.1960 sec 


我 们 观察 到 ， 使 用 异步 计算 能 提升 一 定 的 计算 性 能 。 为 了 解释 这 一 现象 ， 让 我 们 对 Python 
前 端 线程 和 C++ 后 端 线程 的 交互 稍 作 简化 。 在 每 一 次 循环 中 ， 前 端 和 后 端的 交互 大 约 可 以 分 
为 3 个 阶段 : 


(1) 前 端 令 后 端 将 计算 任务 y = x + 1 放 进 队列 ; 
(2) 后 端 从 队列 中 获取 计算 任务 并 执行 真正 的 计算 ; 
G) 后 端 将 计算 结果 返回 给 前 端 。 


我 们 将 这 3 个 阶段 的 耗 时 分 别 设 为 4,,。 如 果 不 使 用 异步 计算 ， 执 行 1000 次 计算 的 总 
FEN KAA 1000(¢, +t +i) 如 果 使 用 异步 计算 ， 由 于 每 次 循环 中 前 端 都 无 须 等 待 后 端 返回 计 
算 结 果 ， 执 行 1000 次 计算 的 总 耗 时 可 以 降 为 # +1000t, +t, (ARE 10002, > 999). 
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为 了 解释 异步 计算 对 内 存 使 用 的 影响 ， 让 我 们 先 回忆 一 下 前 面 的 一 些 章节 的 内 容 。 在 像 
5.6 WE 5.9 节 中 实现 的 模型 训练 过 程 中 ， 我 们 通常 会 在 每 个 小 批量 上 评测 一 下 模型 ， 如 模型 
的 损失 或 者 准确 率 。 细 心 的 读者 也 许 已 经 发 现 了 ， 这 类 评测 常用 到 同步 函数 ， 如 asscalar K 
数 或 者 asnumpy 函数 。 如 果 去 掉 这 些 同 步 函 数 ， 前 端 会 将 大 量 的 小 批量 计算 任务 在 极 短 的 时 
间 内 丢 给 后 端 ， 从 而 可 能 导致 占用 更 多 内 存 。 当 我 们 在 每 个 小 批量 上 都 使 用 同步 函数 时 ， 前 
端 在 每 次 迭代 时 仅 会 将 一 个 小 批量 的 任务 丢 给 后 端 执 行 计算 ， 并 通常 会 减 小 内 存 占用 。 


由 于 深度 学 习 模 型 通常 比较 大 ， 而 内 存 资源 通常 有 限 ， 建 议 大 家 在 训练 模型 时 对 每 个 小 批 
量 都 使 用 同步 函数 ， 例 如 ， 用 asscalar 函数 或 者 asnumpy 函数 评价 模型 的 表现 。 类 似 地 ， 在 
使 用 模型 预测 时 ， 为 了 减 小 内 存 的 占用 ， 也 建议 大 家 对 每 个 小 批量 预测 时 都 使 用 同步 函数 ， 例 
如 ， 直 接 打印 出 当前 小 批量 的 预测 结果 。 


下 面 我 们 来 演示 异步 计算 对 内 存 的 影响 。 我 们 先 定 义 一 个 数据 获取 函数 data_iter, EZ 
从 被 调用 时 开始 计时 ， 并 定期 打印 到 目前 为 止 获取 数据 批量 的 总 耗 时 。 


In [10]: def data_iter(): 
start = time.time() 
num_batches, batch_size = 100, 1024 
for i in range(num_batches): 
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X = nd.random.normal(shape=(batch_size, 512)) 
y = nd.ones((batch_size,)) 
yield X, y 
if (1 + 1) % 50 == 0: 
print('batch %d, time %f sec' % (i + 1, time.time() - start)) 


下 面 定 义 多 层 感 知 机 、 优 化 算法 和 损失 函数 。 


In [11]: net = nn.Sequential() 
net.add(nn.Dense(2048, activation='relu'), 
nn.Dense(512, activation='relu'), 
nn.Dense(1) ) 
net. initialize() 
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.005}) 
loss = gloss.L2Loss() 


这 里 定义 辅助 函数 来 监测 内 存 的 使 用 。 需 要 注意 的 是 ， 这 个 函数 只 能 在 Linux 或 macOS 
EIT. 
In [12]: def get_mem(): 


res = subprocess.check_output(['ps', 'u', '-p', str(os.getpid())]) 
return int(str(res).split()[15]) / 1e3 


现在 我 们 可 以 做 测试 了 。 我 们 先 试 运 行 一 次 ， 让 系统 把 net 的 参数 初始 化 。 有 关 初 始 化 的 
讨论 可 参见 4.3 WW. 


In [13]: for X, y in data_iter(): 
break 
loss(y, net(X)).wait_to_read() 


对 于 训练 模型 net 来 说 ， 我 们 可 以 自然 地 使 用 同步 函数 asscalar 将 每 个 小 批量 的 损失 从 
NDArray 格式 中 取出 ， 并 打印 每 个 迭代 周期 后 的 模型 损失 。 此 时 ， 每 个 小 批量 的 生成 间隔 较 
长 ， 不 过 内 存 开 销 较 小 。 


In [14]: l_sum, mem = 0, get_mem() 

for X, y in data_iter(): 

with autograd.record(): 
l = loss(y, net(X)) 

L_sum += l.mean().asscalar() # 使 用 同步 函数 asscaLar 
l.backward() . 
trainer.step(X.shape[0]) 

nd.waitall() 

print('increased memory: %f MB' % (get_mem() - mem)) 


batch 50, time 2.044438 sec 
batch 100, time 4.090350 sec 
increased memory: 7.108000 MB 
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较 高 。 这 是 因为 在 默认 有 异步 计算 下 ， 前 端 会 将 所 有 小 批量 计算 在 短 时 间 内 全 部 丢 给 后 端 。 这 可 
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能 在 内 和 存 积 压 大 量 中 间 结 果 无 法 释放 。 实 验 中 我 们 看 到 ， 不 到 一 秒 ， 所 有 数据 (xX Aly) 就 都 
己 经 产生 。 但 因为 训练 速度 没有 跟 上 ， 所 以 这 些 数据 只 能 放 在 内 存 里 不 能 及 时 清除 ， 从 而 占用 
额外 内 存 。 


In [15]: mem = get_mem() 
for X, y in data_iter(): 
with autograd.record(): 
l = loss(y, net(X)) 
L.backward() 
trainer.step(X.shape[0]) 
nd.waitall() 


print('increased memory: %f MB' % (get_mem() - mem) ) 


batch 50, time 0.107093 sec 
batch 100, time 0.214159 sec 
increased memory: 196.620000 MB 


小 结 
。 MXNet 包括 用 户 直 接 用 来 交互 的 前 端 和 系统 用 来 执行 计算 的 后 端 。 
。 MXNet 能 够 通过 异步 计算 提升 计算 性 能 。 
© 建议 使 用 每 个 小 批量 训练 或 预测 时 至 少 使 用 一 个 同步 函数 ， 从 而 避免 在 短 时 间 内 将 过 多 计算 
任务 丢 给 后 端 。 


练习 


在 8.2.3 节 中 ， 我 们 提 到 使 用 异步 计算 可 以 使 执行 1000 次 计算 的 总 耗 时 降 为 t1 + 1000 + fo ià 
里 为 什么 要 假设 1000 > 999, ? 





8.3” 目 动 并 行 计算 


MXNet 后 端 会 自动 构建 计算 图 。 通 过 计算 图 ， 系 统 可 以 知道 所 有 计算 
的 依赖 关系 ， 并 可 以 选择 将 没有 依赖 关系 的 多 个 任务 并 行 执行 来 获得 计算 
性 能 的 提升 。 例 如 ，8.2 节 的 第 一 个 例子 里 依次 执行 了 a = nd.ones((1,2)) 
和 b= nd.ones((1,2))s 这 两 步 计算 之 间 并 没有 依赖 关系 ， 因 此 系统 可 以 
选择 并 行 执行 它们 。 

通常 ， 一 个 运算 符 会 用 到 所 有 CPU 或 单 块 GPU 上 全 部 的 计算 资源 。 例 如 ，dot 运算 符 会 
用 到 所 有 CPU (即使 是 一 台 机 器 上 有 多 个 CPU 处 理 器 ) 或 单 块 GPU 上 所 有 的 线程 。 如 果 每 个 
运算 符 的 计算 量 足够 大 ， 只 在 CPU 上 或 者 单 块 GPU 上 并 行 运行 多 个 运算 符 时 ， 每 个 运算 从 的 
运行 只 分 到 CPU 或 单 块 GPU 上 部 分 计算 资源 。 即 使 这 些 计算 可 以 并 行 ， 最 终 计算 性 能 的 提升 
可 能 也 并 不 明显 。 本 节 中 探讨 的 自动 并 行 计算 主要 关注 同时 使 用 CPU 和 GPU 的 并 行 计算 ， 以 
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及 计算 和 通信 的 并 行 。 
首先 导入 本 节 中 实验 所 需 的 包 或 模块 。 注 意 ， 需 要 至 少 一 块 GPU 才能 运行 本 节 实验 。 


In [1]: import d2Lzh as d2L 
import mxnet as mx 
from mxnet import nd 


8.3.1 CPU 和 GPU 的 并 行 计算 


我 们 先 介绍 CPU 和 GPU 的 并 行 计 算 ， 例 如 ， 程 序 中 的 计算 既 发 生 在 CPU 上 ， 又 发 生 在 
GPU 上 。 先 定义 run 函数 ， 令 它 做 10 次 矩阵 乘法 。 


In [2]: def run(x): 
return [nd.dot(x, x) for _ in range(10) ] 


接 下 来 ， 分 别 在 内 存 和 显存 上 创建 NDArray。 


In [3]: x_cpu = nd.random.uniform(shape=(2000, 2000) ) 
x_gpu = nd.random.uniform(shape=(6000, 6000), ctx=mx.gpu(0) ) 


然后 ， 分 别 使 用 它们 在 内 存 和 显存 上 运行 run 函数 并 打印 运行 所 需 时 间 。 
In [4]: run(x_cpu) # 预 热 开 始 


run(x_gpu) 
nd.waitall() # 预 热 结束 


with d2l.Benchmark('Run on CPU.'): 
run(x_cpu) 
nd.waitall() 


with d21.Benchmark('Then run on GPU.'): 
run(x_gpu) 
nd.waitall() 


Run on CPU. time: 0.3151 sec 
Then run on GPU. time: 0.3050 sec 


我 们 去 抒 run(x_cpu) 和 run(x_gpu) 这 两 个 计算 任务 之 间 的 waitall 同步 函数 ， 并 希望 
系统 能 上 自动 并 行 这 两 个 任务 。 
In [5]: with d2l.Benchmark('Run on both CPU and GPU in parallel.'): 
run(x_cpu) 


run(x_gpu) 
nd.waitall() 


Run on both CPU and GPU in parallel. time: 0.3119 sec 


可 以 看 到 ， 当 两 个 计算 任务 一 起 执行 时 ， 执 行 总 时 间 小 于 它们 分 开 执 行 的 总 和 。 这 表明 ， 
MXNet 能 有 效 地 在 CPU 和 GPU 上 自动 并 行 计 算 。 
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8.3.2 ”计算 和 通信 的 并 行 计算 


在 同时 使 用 CPU 和 GPU 的 计算 中 ， 经 常 需要 在 内 存 和 显存 之 间 复 制 数 据 ， 造 成 数据 的 通 
信 。 在 下 和 面 的 例子 中 ， 我 们 在 GPU 上 计算 ， 然 后 将 结果 复制 回 CPU 使 用 的 内 存 。 我 们 分 别 打 
Ef) GPU 上 计算 时 间 和 显存 到 内 存 的 通信 时 间 。 


In [6]: def copy_to_cpu(x): 
return [y.copyto(mx.cpu()) for y in x] 


with d21.Benchmark('Run on GPU.'): 
y = run(x_gpu) 
nd.waitall() 


with d21l.Benchmark('Then copy to CPU.'): 
copy_to_cpu(y) 
nd.waitall() 


Run on GPU. time: 0.3098 sec 
Then copy to CPU. time: 0.5153 sec 


FAN PAT A fa ZB AY waitall 同步 函数 ， 打 印 这 两 个 任务 完成 的 总 时 间 。 


In [7]: with d2l.Benchmark('Run and: copy in parallel.'): 
y = run(x_gpu) 
copy_to_cpu(y) 
nd.waitall() 


Run and copy in parallel. time: 0.5428 sec 


可 以 看 到 ， 执 行 计算 和 通信 的 总 时 间 小 于 两 者 分 别 执行 的 耗 时 之 和 。 需 要 注意 的 是 ， 这 个 
计算 并 通信 的 任务 不 同 于 本 节 之 前 介绍 的 同时 使 用 CPU 和 GPU 并 行 计算 的 任务 。 这 里 的 运行 
和 通信 之 间 有 依赖 关系 : y[i] 必须 先 在 GPU 上 计算 好 才能 复制 到 CPU 使 用 的 内 存 。 所 六 的 是 ， 
在 计算 y[i] 的 时 候 系 统 可 以 复制 y[i-1]， 从 而 减少 计算 和 通信 的 总 运行 时 间 。 


小 结 
© MXNet 能 够 通过 自动 并 行 计算 提升 计算 性 能 ， 例 如 CPU 和 GPU 的 并 行 计算 以 及 计算 和 通 
信和 的 并 行 。 


练习 


(1) 本 节 中 定义 的 run 函数 里 做 了 10 次 运算 。 它 们 之 间 也 没有 依赖 关系 。 设 计 实 验 ， 看 看 
MXNet 有 没有 自动 并 行 执行 它们 。 

(2) 设计 包含 更 加 复杂 的 数据 依赖 的 计算 任务 ， 通 过 实验 观察 MXNet 能 否 得 到 正确 的 结果 并 提 
升 计算 性 能 。 

(3) 当 运 算 符 的 计算 量 足 够 小 时 ， 仅 在 CPU 或 单 块 GPU 上 并 行 计算 也 可 能 提升 计算 性 能 。 设 
计 实 验 来 验证 这 一 点 。 





8.4 多 GPU 计算 


本 节 中 我 们 将 展示 如 何 使 用 多 块 GPU 计算 ， 例 如 ， 使 用 多 块 GPU 训 
练 同 一 个 模型 。 正 如 所 期 望 的 那样 ， 运 行 本 节 中 的 程序 需要 至 少 2 块 GPU. 
事实 上 ， 一 台 机 器 上 安装 多 块 GPU 很 常见 ， 这 是 因为 主板 上 通常 会 有 多 个 
PCle 插 树 。 如 果 正 确 安装 了 NVIDIA 驱动 ， 我 们 可 以 通过 nvidia-smi 命令 
来 查看 当前 计算 机 上 的 全 部 GPU。 


In [1]: !nvidia-smi 
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+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一- 一 -一 -一 一 一 一 一 一 + 
| NVIDIA-SMI 384.111 Driver Version: 384.111 | 
Ei a ecm a Sieg pe te ph A Oe mi a + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | 
| 二 二 二 二 二 三 二 二 二 二 二 二 二 二 二 二 二 三 二 二 二 二 二 二 二 二 二 二 二 二 二 十 二 二 二 二 二 二 二 二 二 二 二 三 二 二 二 二 二 三 二 二 二 二 十 二 二 二 三 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 二 | 
| © Tesla V100-SXM2.. On | 00000000:00:1B.0 Off | 9 | 
| N/A 46C PO 38W / 300W | OMiB / 16152MiB | 0% Default | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| 1 Tesla V100-SXM2... On | 00000000:00:1C.0 Off | 9 | 
| N/A 44C PO 39W / 300W | OMiB / 16152MiB | 0% Default | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 
| 2 Tesla V100-SXM2.. on | 00000000:00:1D.0 Off | 6 | 
| N/A 42C PO 39W / 300W | OMiB / 16152MiB | 0% Default | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 > 
| 3 Tesla V100-SXM2... On | 00000000:00:1E.0 Off | © | 
| N/A 45C PO 43W / 300w | OMiB / 16152MiB | 0% Default | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
$n a = + + 
| Processes: GPU Memory | 
| GPU PID Type Process name Usage | 


8.3 节 介 绍 过 ， 大 部 分 运算 可 以 使 用 所 有 的 CPU 的 全 部 计算 资源 ， 或 者 单 块 GPU 的 全 部 
计算 资源 。 但 如 果 使 用 多 块 GPU 训练 模型 ， 我 们 仍然 需要 实现 相应 的 算法 。 这 些 算法 中 最 常 
用 的 叫 作 数据 并 行 。 


8.4.1 ”数据 并 行 


数据 并 行 目前 是 深度 学 习 里 使 用 最 广泛 的 将 模型 训练 任务 划分 到 多 块 GPU 的 方法 。 回 忆 
一 下 我 们 在 7.3 节 中 介绍 的 使 用 优化 算法 训练 模型 的 过 程 。 下 面 我 们 就 以 小 批量 随机 梯度 下 降 
为 例 来 介绍 数据 并 行 是 如 何 工作 的 。 
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假设 一 台 机 器 上 有 上 块 GPU。 给 定 需要 训练 的 模型 ， 每 块 GPU 及 其 相应 的 显存 将 分 别 独 
立 维 护 一 份 完整 的 模型 参数 。 在 模型 训练 的 任意 一 次 从 代 中 ， 给 定 一 个 随机 小 批量 ， 我 们 将 该 
批量 中 的 样本 划分 成 上 份 并 分 给 每 块 显卡 的 显存 一 份 。 然 后 ， 每 块 GPU 将 根据 相应 显存 所 分 
到 的 小 批量 子 集 和 所 维护 的 模型 参数 分 别 计算 模 型 参数 的 本 地 梯度 。 接 下 来 ， 我 们 把 上 块 显 卡 
的 显存 上 的 本 地 梯度 相 加 ， 便 得 到 当前 的 小 批量 随机 梯度 。 之 后 ， 每 块 GPU 都 使 用 这 个 小 批 
量 随机 梯度 分 别 更 新 相应 显存 所 维护 的 那 一 份 完整 的 模型 参数 。 图 8-1 HHA TEH 2 HR GPU 
的 数据 并 行 下 的 小 批量 随机 梯度 的 计算 。 


模型 


随机 小 批量 


8-1 


tt 





使 用 2 HR GPU 的 数据 并 行 下 的 小 批量 随机 梯度 的 计算 


为 了 从 零 开 始 实现 多 GPU 训练 中 的 数据 并 行 ， 让 我 们 先导 入 需要 的 包 或 模块 。 


In [2]: import d2Lzh as d2l 
import mxnet as mx 
from mxnet import autograd, nd 
from mxnet.gluon import loss as gloss 
import time 


8.4.2 ”定义 模型 
我 们 使 用 5.5 节 里 介绍 的 LeNet 来 作为 本 节 的 样 例 模型 。 这 里 的 模型 实现 部 分 只 用 到 了 


NDArray. 


In [3]: # 初始 化 模型 参数 
scale = 0.01 


W1 
bl 
W2 
b2 
W3 
b3 
W4 
b4 


nd.r 
nd. 
nd. 
nd. 
nd. 
nd. 
nd. 
nd. 


andom.normal(scale=scale, 
zeros (shape=20) 
random.normal(scale=scale, 
zeros (shape=50) 
random.normal(scale=scale, 
zeros (shape=128) 
random.normal(scale=scale, 
zeros (shape=10) 


shape=(20, 1, 3, 3)) 
shape=(50, 20, 5, 5)) 
shape=(800, 128)) 


shape=(128, 10)) 
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params = [W1, bl, W2, b2, W3, b3, W4, b4] 


# 定义 模型 
def lenet(X, params): 
hl_conv = nd.Convolution(data=X, weight=params[0], bias=params[1], 
kernel=(3, 3), num_filter=20) 
hl_activation = nd.relu(hli_conv) 
hl = nd.Pooling(data=hl_activation, pool_type='avg', kernel=(2, 2), 
stride=(2, 2)) 
h2_conv = nd.Convolution(data=hl, weight=params[2], bias=params[3], 
kernel=(5, 5), num_filter=50) 
h2_activation = nd.relu(h2_conv) 
h2 = nd.Pooling(data=h2_activation, pool_type='avg', kernel=(2, 2), 
stride=(2, 2)) 
h2 = nd.flatten(h2) 
h3_linear = nd.dot(h2, params[4]) + params[5] 
h3 = nd.relu(h3_linear) 
y_hat = nd.dot(h3, params[6]) + params[7] 
return y_hat 


# ZEW MARR 


loss = gloss.SoftmaxCrossEntropyLoss() 


8.4.3 多 GPU 之 间 同 步 数据 


我 们 需要 实现 一 些 多 GPU 之 间 同 步 数据 的 辅助 函数 。 下 面 的 get_params 函数 将 模型 参 
数 复制 到 某 块 显卡 的 显存 并 初始 化 梯度 。 


In [4]: def get_params(params, ctx): 
new_params = [p.copyto(ctx) for p in params] 
for p in new_params: 
p.attach_grad() 
return new_params 


尝试 把 模型 参数 params 复制 到 gpu(9) 上 。 


In [5]: new_params = get_params(params, mx.gpu(0)) 
print('bl weight:', new_params[1]) 
print('bl grad:', new_params[1].grad) 


bl weight: 

[o. ©. 6.°6. 6. 6. 6. 6. 6. O. Ds O. 0. 6. 8. GO. 8. 8. G. 8.) 
<NDArray 20 @gpu(0)> 

bl grad: 

K PRR V #..8.. 6. 0. @. 6. 8..9. 6. O. 6. 6. Go. 8. .6, 8. A 
<NDArray 20 @gpu(0)> 


给 定 分 布 在 多 块 显卡 的 显存 之 间 的 数据 。 下 面 的 allreduce 函数 可 以 把 各 块 显卡 的 显存 
上 的 数据 加 起 来 ， 然 后 再 广播 到 所 有 的 显存 上 。 
In [6]: def allreduce(data): 


for i in range(1, len(data)): 
data[O][:] += data[i].copyto(data[0].context) 
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for i in range(1, len(data)): 
data[0].copyto(data[i]) 


简单 测试 一 下 allreduce 函数 。 


In [7]: data = [nd.ones((1, 2), ctx=mx.gpu(i)) * (i + 1) for i in range(2)] 
print('before allreduce:', data) 
allreduce (data) 
print('after allreduce:', data) 


before allreduce: [ 
({1. 1.]] 

<NDArray 1x2 @gpu(0)>, 
({2. 2.]] 

<NDArray 1x2 @gpu(1)>] 
after allreduce: [ 
[[3. 3.]] 

<NDArray 1x2 @gpu(0)>, 


L(3.. 3.3] 
<NDArray 1x2 @gpu(1)>] 


给 定 一 个 批量 的 数据 样本 ， 下 面 的 split_and_load 函数 可 以 将 其 划分 并 复制 到 各 块 显卡 


In. [8]: def split.and_load(data, ctx): 
n, k = data.shape[0], Len(ctx) 
m= n // k # 简单 起 见 ， 假 设 可 以 整除 
assert m * k == n, '# examples is not divided by # devices.' 
return [data[i * m: (i + 1) * m].as_in_context(ctx[i]) for i in range(k)] 


让 我 们 试 着 用 split_and_load 函数 将 6 个 数据 样本 平均 分 给 2 块 显卡 的 显存 。 


In [9]: batch = nd.arange(24).reshape((6, 4)) 
ctx = [mx.gpu(0), mx.gpu(1) ] 
splitted = split_and_load(batch, ctx) 
print('input: ', batch) 
print('load into', ctx) 
print('output:', splitted) 


input: 

+2 ro ie - cg 
(4. &S-68 tia 
[ 8. 9» -10.:~L20] 


(12. da. 14: ° 2935) 
[16, AT ala] 
[20.721 >-22. RST HI 
<NDArray 6x4 @cpu(0)> 
load into [gpu(0), gpu(1)] 
output: [ 
i ed ee A oe A 
> a & Se i Fas 
l Es 3. 16. Epi 
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<NDArray 3x4 @gpu(0)>, 

CEZ. igi 44. 16.) 
Lig. 17... 18.-9..] 
2G Bhs mee eae 

<NDArray 3x4 @gpu(1)>] 


8.4.4 单个 小 批量 上 的 多 GPU 训练 


现在 我 们 可 以 实现 单个 小 批量 上 的 多 GPU 训练 了 。 它 的 实现 主要 依据 本 节 介 绍 的 数据 并 
行 方法 。 我 们 将 使 用 刚刚 定义 的 多 GPU 之 间 同 步 数据 的 辅助 图 数 aLLreduce 和 split_and_ 
load. 





In [10]: def train_batch(X, y, gpu_params, ctx, lr): 
# 当 ctx 包 含 多 块 GPU 及 相应 的 显存 时 ， 将 小 批量 数据 样本 划分 并 复制 到 各 个 显存 上 
gpu_Xs, gpu_ys = split_and_load(X, ctx), split_and_load(y, ctx) 
with autograd.record(): # 在 各 块 6PU 上 分 别 计算 损失 
ls = [loss(lenet(gpu_X, gpu_W), gpu_y) 
for gpu_X, gpu_y, gpu_W in zip(gpu_Xs, gpu_ys, gpu_params) ] 
for l in ls: # 在 各 块 6PU 上 分 别 反 向 传播 
l.backward() 
# 把 各 块 显卡 的 显存 上 的 梯度 加 起 来 ， 然 后 广播 到 所 有 显存 上 
for i in range(len(gpu_params[0])): 
allreduce([gpu_params[c][i].grad for c in range(len(ctx))]) 
for param in gpu_params: # 在 各 块 显卡 的 显存 上 分 别 更 新 模型 参数 
d21l.sgd(param, lr, X.shape[0]) #4 这 里 使 用 了 完整 批量 大 小 





8.4.5 定义 训练 函数 


现在 我 们 可 以 定义 训练 函数 了 。 这 里 的 训练 函数 和 3.6 节 定 义 的 训练 函数 train_ch3 有 所 
不 同 。 值 得 强调 的 是 ， 在 这 里 我 们 需要 依据 数据 并 行将 完整 的 模型 参数 复制 到 多 块 显卡 的 显存 
上 ， 并 在 每 次 迭代 时 对 单个 小 批量 进行 多 GPU 训练 。 


In [11]: def train(num_gpus, batch_size, lr): 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size) 
ctx = [mx.gpu(i) for i in range(num_gpus) ] 
print('running on:', ctx) 
# 将 模型 参数 复制 到 num_gpus 块 显卡 的 显存 上 
gpu_params = [get_params(params, c) for c in ctx] 
for epoch in range(4): 
start = time.time() 
for X, y in train_iter: 
# 对 单个 小 批量 进行 多 GPU 训练 
train_batch(X, y, gpu_params, ctx, lr) 
nd.waitall() 
train_time = time.time() - start 


def net(x): # 在 gpu(0) 上 验证 模型 
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return lenet(x, gpu_params[0]) 
test_acc = d2l.evaluate_accuracy(test_iter, net, ctx[0]) 
print('epoch %d, time %.1f sec, test acc %.2f' 
% (epoch + 1, train_time, test_acc)) 


8.4.6 “外 人 
让 我 们 先 从 单 GPU 训练 开始 。 设 批量 大 小 为 256， 学 习 率 为 0.2。 


In [12]: train(num_gpus=1, batch_size=256, lr=0.2) 














running on: [gpu(0) ] 

epoch 1, time 1.7 sec, test acc 0.10 
epoch 2, time 1.6 sec, test acc 0.69 
epoch 3, time 1.5 sec, test acc 0.75 
epoch 4, time 1.6 sec, test acc 0.79 


保持 批量 大 小 和 学 习 率 不 变 ， 将 使 用 的 GPU 数量 改 为 2。 可 以 看 到 ， 测 试 准确 率 的 提升 同 
上 一 个 实验 中 的 结果 大 体 相 当 。 因 为 有 额外 的 通信 开销 ， 所 以 我 们 并 没有 看 到 训练 时 间 的 显著 
降低 。 因 此 ， 我 们 将 在 8.5 节 实 验 计算 更 加 复杂 的 模型 。 


In [13]: train(num_gpus=2, batch_size=256, lr=0.2) 


running on: [gpu(0), gpu(1) ] 

epoch 1, time 2.5 sec, test acc 0.10 
epoch 2, time 2.3 sec, test acc 0.64 
epoch 3, time 2.4 sec, test acc 0.68 
epoch 4, time 2.6 sec, test acc 0.78 


小 结 
© 可 以 使 用 数据 并 行 更 充分 地 利用 多 块 GPU 的 计算 资源 ， 实 现 多 GPU 训练 模型 。 
© 给 定 超 参数 的 情况 下 ， 改 变 GPU 数量 时 模型 的 准确 率 大 体 相当 。 


练习 

(1) 在 多 GPU 训练 实验 中 ， 使 用 2 GPU 训练 并 将 batch_size 翻 倍 至 512， 训 练 时 间 有 何 
变化 ? 如 果 和 希望 测试 准确 率 与 单 GPU 训练 中 的 结果 相当 ， 学 习 率 应 如 何 调 节 ? 

(2) 将 实验 的 模型 预测 部 分 改 为 用 多 GPU 预测 。 





8.5 多 GPU 计算 的 简洁 实现 


在 Gluon 中 ， 我 们 可 以 很 方便 地 使 用 数据 并 行进 行 多 GPU 计算 。 例 
如 ， 我 们 并 不 需要 目 己 实 现 8.4 节 里 介绍 的 多 GPU 之 间 同 步 数据 的 辅助 
图 数 。 





扫 码 直达 讨论 区 





or 
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首 和 匈 寻 入 本 节 实 验 所 需 的 包 或 模块 。 运 行 本 节 中 的 程序 需要 至 少 2 块 GPU. 


In [1]: import d2Lzh as d21 
import mxnet as mx 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import loss as gloss, nn, utils as gutils 
import time 


8.5.1 多 GPU 上 初始 化 模型 参数 


我 们 使 用 ResNet-18 作为 本 市 的 样 例 模型 。 由 于 本 节 的 输入 图 像 使 用 原 尺寸 (未 放大 )， 
这 里 的 模型 构造 与 5.11 节 中 的 ResNet-18 构造 稍 有 不 同 。 这 里 的 模型 在 一 开始 使 用 了 较 小 的 卷 
积 核 、 步 幅 和 填充 ， 并 去 掉 了 最 大 池 化 层 。 


In [2]: def resnet18(num_classes): # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 
def resnet_block(num_channels, num_residuals, first_block=False): 
blk = nn.Sequential() 
for i in range(num_residuals) : 
if i == 0 and not first_block: 
blk.add(d21l.Residual ( 
num_channels, use_1xlconv=True, strides=2) ) 
else: 
blk.add(d2l.Residual(num_channels)) 
return blk 


net = nn.Sequential() 
# 这 里 使 用 了 较 小 的 卷 积 核 、 步 幅 和 填充 ， 并 去 掉 了 最 大 池 化 层 
net.add(nn.Conv2D(64, kernel_size=3, strides=1, padding=1), 
nn.BatchNorm(), nn.Activation('relu') ) 
net.add(resnet_block(64, 2, first_block=True), 
resnet_block(128, 2), 
resnet_block(256, 2), 
resnet_block(512, 2)) 
net.add(nn.GlobalAvgPool2D(), nn.Dense(num_classes) ) 
return net 


net = resnet18(10) 


之 前 我 们 介绍 了 如 何 使 用 initialize 函数 的 ctx 参数 在 内 存 或 单 块 显卡 的 显存 上 初始 化 
模型 参数 。 事 实 上 ，ctx 可 以 接受 一 系列 的 CPU 及 内 存 和 GPU 及 相应 的 显存 ， 从 而 使 初始 化 
好 的 模型 参数 复制 到 ctx 里 所 有 的 内 存 和 显存 上 。 

In [3]: ctx = [mx.gpu(0), mx.gpu(1)] 

net. initialize(init=init.Normal(sigma=0.01), ctx=ctx) 

Gluon 提供 了 上 一 节 中 实现 的 split_and_load 函数 。 它 可 以 划分 一 个 小 批量 的 数据 样本 
并 复制 到 各 个 内 存 或 显存 上 。 之 后 ， 根 据 输入 数据 所 在 的 内 存 或 显存 ， 模 型 计算 会 相应 地 使 用 
CPU 或 相同 显卡 上 的 GPU. 
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In [4]: x = nd.random.uniform(shape=(4, 1, 28, 28)) 
gpu_x = gutils.split_and_load(x, ctx) 
net(gpu_x[0]), net(gpu_x[1]) 


Out[4]: ( 

[[ 5.4814936e-06 -8.3371094e-07 -1.6316770e-06 -6.3674099e-07 
-3.8216162e-06 -2.3514044e-06 -2.5469599e-06 -9.4784696e-08 
-6.9033558e-07 2.5756231e-06] 

[ 5.4710872e-06 -9.4246496e-07 -1.0494070e-06 9.8081841e-08 
-3.3251815e-06 -2.4862918e-06 -3.3642798e-06 1.0455864e-07 
-6.1001344e-07 2.0327841e-06] | 

<NDArray 2x10 @gpu(Q)>, 

[L 5.6176345e-06 -1.2837586e-06 -1.4605541e-06 1.8302967e-07 

-3.5511653e-06 -2.4371013e-06 -3.5731798e-06 -3.0974860e-07 
-1.1016571le-06 1.8909889e-06] 
[ 5.1418697e-06 -1.3729932e-06 -1.1520088e-06 1.1507450e-07 
-3.7372811e-06 -2.8289724e-06 -3.6477197e-06 1.5781629e-07 
-6.0733043e-07 1.9712013e-06] | 

<NDArray 2x10 @gpu(1)>) 


现在 ， 我 们 可 以 访问 已 初始 化 好 的 模型 参数 值 了 。 需 要 注意 的 是 ， 默 认 情 况 下 weight. 
data() 会 返回 内存 上 的 参数 仁 。 因 为 我 们 指定 了 2 GPU 来 初始 化 模型 参数 ， 所 以 需要 指定 
显存 来 访问 参数 值 。 我 们 看 到 ， 相 同 参数 在 不 同 显卡 的 显存 上 的 值 一 样 。 


In [5]: weight = net[0].params.get('weight') 


try: 

weight.data() 
except RuntimeError: 

print('not initialized on', mx.cpu()) 
weight.data(ctx[0]) [0], weight.data(ctx[1]) [0] 


not initialized on cpu(0) 


Out [5]: { 
[[[-0.01473444 -0.01073093 -0.01042483] 
[-0.01327885 -0.01474966 -0.00524142] 
[ @©.01266256 0.00895064 -0.00601594] ] ] 
<NDArray 1x3x3 @gpu(0)>, 
[[[-0.01473444 -0.01073093 -0.01042483] 
[-0.01327885 -0.01474966 -0.00524142] 
[ @©.01266256 0.00895064 -0.00601594] | ] 
<NDArray 1x3x3 @gpu(1)>) 


8.5.2 ”多 GPU 训 练 模型 
当 使 用 多 块 GPU 来 训练 模型 时 ，Trainer 实例 会 目 动 做 数据 并 行 ， 例 如 ， 划 分 小 批量 数 
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据 样 本 并 复制 到 各 块 显卡 的 显存 上 ， 以 及 对 各 块 显卡 的 显存 上 的 梯度 求 和 再 广播 到 所 有 显存 
上 。 这 样 ， 我 们 就 可 以 很 方便 地 实现 训练 函数 了 。 


In [6]: def 


train(num_gpus, batch_size, lr): 
train_iter, test_iter = d21l.load_data_fashion_mnist(batch_size) 
ctx = [mx.gpu(i) for i in range(num_gpus) ] 
print('running on:', ctx) 
net. initialize(init=init.Normal(sigma=0.01), ctx=ctx, force_reinit=True) 
trainer = gluon.Trainer ( 
net.collect_params(), 'sgd', {'learning_rate': lr}) 
loss = gloss.SoftmaxCrossEntropyLoss() 
for epoch in range(4): 
start = time.time() 
for X, y in train_iter: 
gpu_Xs = gutils.split_and_load(X, ctx) 
gpu_ys = gutils.split_and_load(y, ctx) 
with autograd.record(): 
ls = [loss(net(gpu_X), gpu_y) 
for gpu_X, gpu_y in zip(gpu_Xs, gpu_ys) ] 
for L in ls: 
L. backward ( ) 
trainer.step(batch_size) 
nd.waitall() 
train_time = time.time() - start 
test_acc = d2l.evaluate_accuracy(test_iter, net, ctx[0]) 
print('epoch %d, time %.1f sec, test acc %.2f' % ( 
epoch + 1, train_time, ‘test_acc) ) 


首先 在 单 块 GPU 上 训练 模型 。 


In [7]: train(num_gpus=1, batch_size=256, lr=0.1) 


running on: 


[gpu(0) ] 


epoch 1, time 14.9 sec, test acc 0.87 


epoch 2, time 13.5 sec, test acc 0.90 


epoch 3, time 13.6 sec, test acc 0.92 


epoch 4, time 13.6 sec, test acc 0.91 


然后 尝试 在 2 ER GPU 上 训练 模型 。 与 8.4 节 使 用 的 LeNet 相 比 ，ResNet-18 的 计算 更 加 复 
通信 时 间 比 计算 时 间 更 短 ， 因 此 ResNet-18 的 并 行 计算 所 获得 的 性 能 提升 更 佳 。 


In [8]: train(num_gpus=2, batch_size=512, lr=0.2) 


running on: 


[gpu(0), gpu(1)] 


epoch 1, time 7.8 sec, test acc 0.81 


epoch 2, time 7.0 sec, test acc 0.87 


epoch 3, time 7.0 sec, test acc 0.89 


epoch 4, time 7.0 sec, test acc 0.91 
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小 结 
© 在 Gluon 中 ， 可 以 很 方便 地 进行 多 GPU 计算 ， 例 如 ， 在 多 GPU 及 相应 的 显存 上 初始 化 模型 参 
数 和 训练 模型 。 


练习 
(1) 本 节 使 用 了 ResNet-18 模型 。 试 试 不 同 的 迭代 周期 、 批 量 大 小 和 学 习 率 。 如 果 人 条 件 允许 ， 


使 用 更 多 GPU 来 计算 。 
(2) 有 时 候 ， 不 同 设备 的 计算 能 力 不 一 样 ， 例 如 ， 同 时 使 用 CPU 和 GPU， 或 者 不 同 GPU 之 间 
型 号 不 一 样 。 这 时 候 ， 应 该 如 何 将 小 批量 划分 到 内 存 或 不 同 显卡 的 显存 ? 








无 论 是 医疗 诊断 、 无 人 车 、 摄 像 监 控 ， 还 是 智能 滤 镜 ,计算 机 视觉 领域 的 诸多 应 用 都 与 
我 们 当下 和 未 来 的 生活 奶奶 相 关 。 近 年 来 ， 深 度 学 习 技术 深刻 推动 了 计算 机 视觉 系统 性 能 世 
提升 。 可 以 说 ， 当 下 最 先进 的 计算 机 视觉 应 用 几乎 离 不 开 深度 学 习 。 鉴 于 此 ， 本 章 将 关注 计 
算 机 视觉 领域 ， 并 从 中 挑选 时 下 在 学 术 界 和 工业 界 具 有 影 啊 力 的 方法 与 应 用 来 展示 深度 学 习 
的 魅力 。 


我 们 在 第 5 章 中 已 经 介绍 了 计算 机 视 党 领域 铝 使 用 的 深度 学 习 模 型 ， 并 实践 了 简单 的 图 像 
分 类 任务 。 在 本 章 的 开头 ， 我 们 介绍 两 种 有 助 于 提升 模型 的 泛 化 能 力 的 方法 ， 即 图 像 增 广 和 微 
调 ， 并 将 它们 应 用 于 图 像 分 类 。 由 于 深度 神经 网 络 能 够 对 图 像 逐 级 有 效 地 进行 表征 ， 这 一 特性 
被 广泛 应 用 在 目标 检测 、 语 义 分 割 和 样式 迁移 这 些 主流 计算 机 视 党 任务 中 ， 并 取得 了 成 功 。 转 
绕 这 一 核心 思想 ， 首 先 ， 我 们 将 描述 目标 检测 的 工作 流程 与 各 类 方法 。 之 后 ， 我 们 将 探究 如 何 
使 用 全 卷 积 网 络 对 图 像 做 语义 分 割 。 接 下 来 ， 我 们 再 解释 如 何 使 用 样式 迁移 技术 生成 像 本 书 圭 
面 一 样 的 图 像 。 最 后 ， 我 们 在 两 个 计算 机 视觉 的 重要 数据 集 上 实践 本 间 和 前 几 章 的 知识 。 


= | 
9.1 图 像 增 广 


在 5.6 节 里 我 们 提 到 过 ， 大 规模 数据 集 是 成 功 应 用 深度 神经 网 络 的 前 [m] [m] 
提 。 图 像 增 广 (image augmentation) 技术 通过 对 训练 图 像 做 一 系列 随机 
改变 ， 来 产生 相似 但 又 不 同 的 训练 样本 ， 从 而 扩大 训练 数据 集 的 规模 。 图 
像 增 广 的 另 一 种 解释 是 ， 随 机 改变 训练 样本 可 以 降低 模型 对 某 些 属性 的 依 
赖 ， 从 而 提高 模型 的 泛 化 能 力 。 例 如 ， 我 们 可 以 对 图 像 进行 不 同方 式 的 裁 
剪 ， 使 感 兴 趣 的 物体 出 现在 不 同位 置 ， 从 而 减轻 模型 对 物体 出 现 位 置 的 依赖 性 。 我 们 也 可 以 调 
整 亮 度 、 色 彩 等 因素 来 降低 模型 对 色彩 的 敏感 度 。 可 以 说 ， 在 当年 AlexNet 的 成 功 中 ， 图 像 增 
三 技术 功 不 可 没 。 本 节 我 们 将 讨论 这 个 在 计算 机 视觉 里 被 广泛 使 用 的 技术 。 


首先 ， 寻 入 实验 所 需 的 包 或 模块 。 


In [1]: %matplotlib inline 
import d2Lzh as d2l 
import mxnet as mx 
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from mxnet import autograd, gluon, image, init, nd 

from mxnet.gluon import data as gdata, loss as gloss, utils as gutils 
import sys 

import time 


9.1.1 单 用 的 图 像 增 广 方法 


我 们 来 读 取 一 张 形状 为 400 x 500 (高 和 宽 分 别 为 400 像素 和 500 像素 ) 的 图 像 作 为 实验 
的 样 例 〈 另 见 彩 插图 1). 
In [2]: d2l.set_figsize() 


img = image.imread('../img/catl.jpg') 
d2l.plt.imshow(img.asnumpy () ) 


Out[2]: <matplotlib.image.AxesImage at 0x7f331417c5f8> 





0 100° “200 “300° 400° 500 
Fle X24 RAL show_images. 
In [3]: # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 


def show_images(imgs, num_rows, num_cols, scale=2): 

figsize = (num_cols * scale, num_rows * scale) 

_, axes = d21l.plt.subplots(num_rows, num_cols, figsize=figsize) 

for i in range(num_rows): 

for j in range(num_cols): 

axes[i][j].imshow(imgs[i * num_cols + j].asnumpy()) 
axes[i][j].axes.get_xaxis().set_visible(False) 
axes[i][j].axes.get_yaxis().set_visible(False) 

return axes 


大 部 分 图 像 增 广 方法 都 有 一 定 的 随机 性 。 为 了 方便 观察 图 像 增 广 的 效果 ， 接 下 来 我 们 定义 
一 个 辅助 函数 apply。 这 个 函数 对 输入 图 像 img 多 次 运行 图 像 增 三 方法 aug 并 展示 所 有 的 结 条 。 


In [4]: def apply(img, aug, num_rows=2, num_cols=4, scale=1.5): 
Y = [aug(img) for _ in range(num_rows * num_cols) ] 
show_images(Y, num_rows, num_cols, scale) 


1. Hee 
左右 翻转 图 像 通常 不 改变 物体 的 类 别 。 它 是 最 早 也 是 最 广泛 使 用 的 一 种 图 像 增 广 方法 。 
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下 面 我 们 通过 transforms 模块 创建 RandomFLipLeftRight 实例 来 实现 一 半 概 率 的 图 像 元 
右 翻转 〈 另 见 彩 插图 2)。 


In [5]: apply(img, gdata.vision.transforms.RandomF LipLeftRight() ) 





上 下 翻转 不 如 左右 翻转 通用 。 但 是 至 少 对 于 样 例 图 像 ， 上 下 翻转 不 会 造成 识别 障碍 。 下 面 
我 们 创建 RandomFLipTopBottom 实例 来 实现 一 半 概 率 的 图 像 上 下 翻转 〈 另 见 彩 插图 3 )。 


In [6]: apply(img, gdata.vision.transforms.RandomFlipTopBottom() ) 





在 我 们 使 用 的 样 例 图 像 里 ， 狂 在 图 像 正 中 间 ， 但 一 般 情况 下 可 能 不 是 这 样 。 在 5.4 节 里 
我 们 解释 了 池 化 层 能 降低 卷 积 层 对 目标 位 置 的 敏感 度 。 除 此 之 外 ， 我 们 还 可 以 通过 对 图 像 随 
机 载 剪 来 让 物体 以 不 同 的 比例 出 现在 图 像 的 不 同位 置 ， 这 同样 能 够 降低 模型 对 目标 位 置 的 敏 
感性 。 


在 下 面 的 代码 里 ， 我 们 每 次 随机 裁剪 出 一 块 面 积 为 原 面 积 10% ~ 100% 的 区 域 ， 且 该 区 
域 的 宽 和 高 之 比 随机 取 目 0.$ 一 2， 然 后 再 将 该 区 域 的 宽 和 高 分 别 缩放 到 200 像素 〈( 男 见 彩 插 
图 4)。 石 无 特殊 说 明 ， 本 万 中 a 和 4b 之 则 的 随机 数 指 的 是 从 区 则 [a, b] 中 随机 均匀 采样 所 得 到 
的 连续 但 。 

In [7]: shape_aug = gdata.vision.transforms.RandomResizedCrop( 


(200, 200), scale=(0.1, 1), ratio=(0.5, 2)) 
apply(img, shape_aug) 
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另 一 类 增 广 方法 是 变化 颜色 。 我 们 可 以 从 4 个 方面 改变 图 像 的 颜色 : 亮度、 对比度、 饱和 
度 和 色调 。 在 下 面 的 例子 里 ， 我 们 将 图 像 的 亮度 随机 变化 为 原 图 亮度 的 S0%〈 即 1-0.5) 一 
150% (〈 即 1+0.$)〈 另 见 彩 插图 5). 


In [8]: apply(img, gdata.vision.transforms.RandomBrightness(0.5) ) 





类 似 地 ， 我 们 也 可 以 随机 变化 图 像 的 色调 ( 男 见 彩 插图 6). 


In [9]: apply(img, gdata.vision.transforms.RandomHue(0.5) ) 
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我 们 也 可 以 创建 RandomColorJitter 实例 并 同时 设置 如 何 随 机 变化 图 像 的 膨 懂 
(brightness)、 对 比 度 (contrast)、 饱 和 度 (saturation) 和 色调 (hue)( 男 见 彩 插图 7). 


In [10]: color_aug = gdata.vision.transforms.RandomColorJitter ( 
brightness=0.5, contrast=0.5, saturation=0.5, hue=0.5) 


apply(img, color_aug) 





3. 看 加 多 个 图 像 增 广 方 法 


实际 应 用 中 我 们 会 将 多 个 图 像 增 广 方法 登 加 使 用 。 我 们 可 以 通过 Compose 实例 将 上 面 定 
义 的 多 个 图 像 增 广 方法 合 加 起 来 ， 再 应 用 到 每 张 图 像 之 上 ( 男 见 彩 插图 8 )。 
In [11]: augs = gdata.vision.transforms.Compose([ 


gdata.vision.transforms.RandomFlipLeftRight() , atot _aug, shape_aug]) 
apply (img, augs) ; 





9.1.2 ”使 用 图 像 增 广 训 | 乡 


PAVE Tas BRIA) AEE T, 这 里 我 们 使 用 CIFAR-10 数据 集 ， 
而 不 是 之 前 我 们 一 直 使 用 的 Fashion-MNIST 数据 集 。 这 是 因为 Fashion-MNIST 数据 集中 物体 
的 位 置 和 尺寸 都 已 经 经 过 归 一 化 处 理 ， 而 CIFAR-10 数据 集中 物体 的 颜色 和 大 小 区 别 更 加 显著 
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下 面 展示 了 CIFAR-10 数据 集中 前 32 张 训 练 图 像 〈 另 见 彩 插图 9)。 


In [12]: show_images(gdata.vision.CIFAR10(train=True) [0:32][0], 4, 8, scale=0.8); 





为 了 在 预测 时 得 到 确定 的 结果 ， 我 们 通常 只 将 图 像 增 广 应 用 在 训练 样本 上 ， 而 不 在 了 预测 
时 使 用 含 随 机 操作 的 图 像 增 广 。 在 这 里 我 们 只 使 用 最 简单 的 随机 左右 翻转 。 此 外 ， 我 们 使 用 
ToTensor 实例 将 小 批量 图 像 转 成 MXNet 需要 的 格式 ， 即 形状 为 (批量 大 小 , 通道 数 , 高 , 宽 )、 
值 域 在 0 到 1 之 间 且 类 型 为 32 位 浮 点 数 。 

In [13]: flip_aug = gdata.vision.transforms.Compose([ 


gdata.vision.transforms.RandomFlipLeftRight(), 
gdata.vision.transforms.ToTensor() ]) 


no_aug = gdata.vision.transforms.Compose([ 


gdata.vision.transforms.ToTensor() ]) 


接 下 来 我 们 定义 一 个 辅助 函数 来 方便 读 取 图 像 并 应 用 图 像 增 广 。Gluon 的 数据 集 提供 的 
transform_first 函数 将 图 像 增 广 应 用 在 每 个 训练 样本 《图像 和 标 登 ) 的 第 一 个 元 素 ， 即 图 
像 之 上 。 有 关 DataLoader 的 详细 介绍 ， 可 参考 更 早 的 3.5 市 。 

In [14]: num_workers = 0 if sys.platform.startswith('win32') else 4 

def load_cifarlO(is_train, augs, batch_size): 
return gdata.DataLoader ( 


gdata.vision.CIFAR10(train=is_train).transform_first(augs) , 


batch_size=batch_size, shuffle=is_train, num_workers=num_workers) 


使 用 多 GPU 训练 模型 


我 们 在 CIFAR-10 数据 集 上 训练 5.11 节 介 绍 的 ResNet-18 模型 。 我 们 还 将 应 用 8.5 节 中 介 
绍 的 方法 ， 使 用 多 GPU 训练 模型 。 


首先 ， 我 们 定义 try_all_gpus 函数 ， 从 而 能 够 获取 所 有 可 用 的 GPU. 
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In [15]: def try_all_gpus(): # 本 函数 已 保存 在 d21lzh 包 中 方便 以 后 使 用 
ctxes = [] 
try: 
for i in range(16): # 假设 一 台 机 器 上 GPU 的 数量 不 超过 16 
ctx = mx.gpu(7) 
-= nd.array([0], ctx=ctx) 
ctxes.append(ctx) 
except mx.base.MXNetError: 
pass 
if not ctxes: 
ctxes = [mx.cpu() ] 
return ctxes 


下 面 定 义 的 辅助 函数 _get_batch 将 小 批量 数据 样本 batch 划分 并 复制 到 ctx 变量 指定 
的 各 个 显存 上 。 


In [16]: def _get_batch(batch, ctx): 
features, Labels = batch 
if labels.dtype != features.dtype: 
labels = lLabels.astype(features.dtype) 
return (gutils.split_and_load(features, ctx), 
gutils.split_and_load(labels, ctx), features.shape[0]) 


然后 ， 我 们 定义 evaluate_accuracy 函数 评价 模型 的 分 类 准确 率 。 与 3.6 和 5.5 HP FIA 
的 evaluate_accuracy 函数 不 同 ， 这 里 定义 的 函数 更 加 通用 : 它 通 过 辅助 函数 _get_batch 
使 用 ctx 变量 所 包含 的 所 有 GPU 来 评价 模型 。 


In [17]: # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 
def evaluate_accuracy(data_iter, net, ctx=[mx.cpu()]): 
if isinstance(ctx, mx.Context): 
ctx = [ctx] 
acc_sum, n = nd.array([0]), 0 
for batch in data_iter: 
features, labels, _ = _get_batch(batch, ctx) 
for X, y in zip(features, labels): 
y = y.astype('float32') 
acc_sum += (net(X).argmax(axis=1) == y).sum().copyto(mx.cpu() ) 
n += y.size 
acc_sum.wait_to_read() 
return acc_sum.asscalar() / n 


接 下 来 ， 我 们 定义 train 函数 使 用 多 GPU 训练 并 评价 模型 。 
In [18]: # 本 国 数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs): 
print('training on', ctx) 
if isinstance(ctx, mx.Context): 
ctx = [ctx] 
for epoch in range(num_epochs) : 
train_l_sum, train_acc_sum, n, m, start = 0.0, 0.0, 0, 0, time.time() 
for i, batch in enumerate(train_iter): 
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Xs, ys, batch_size = _get_batch(batch, ctx) 
is = (J 
with autograd.record(): 
y_hats = [net(X) for X in Xs] 
= [loss(y_hat, y) for y_hat, y in zip(y_hats, ys)] 
for 1 in ls: 
Ll. backward ( ) 
trainer.step(batch_size) 
train_l_sum += sum([l.sum().asscalar() for l in 1s]) 
n += sum([l.size for l in 1s]) 
train_acc_sum += sum([(y_hat.argmax(axis=1) == y).sum().asscalar() 
for y_hat, y in zip(y_hats, ys)]) 
m += sum([y.size for y in ys]) 
test_acc = evaluate_accuracy(test_iter, net, ctx) 
print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f, 
' 'time %.1f sec' 
% (epoch + 1, train_l_sum / n, train_acc_sum / m, test_acc, 
time.time() - start)) 


现在 就 可 以 定义 train_with_data_aug 函数 使 用 图 像 增 广 来 训练 模型 了。 该 函数 获取 了 
所 有 可 用 的 GPU， 并 将 Adam 算法 作为 训练 使 用 的 优化 算法 ， 然 后 将 图 像 增 广 应 用 于 训练 数 
据 集 之 上 ， 最 后 调用 刚才 定义 的 train 函数 训练 并 评价 模型 。 


In [19]: def 


train_with_data_aug(train_augs, test_augs, lr=0.001): 

batch_size, ctx, net = 256, try_all_gpus(), d2l.resnet18(10) 

net. initialize(ctx=ctx, init=init.Xavier()) 

trainer = gluon.Trainer(net.collect_params(), 'adam', 
{'learning_rate': lr}) 

loss = gloss.SoftmaxCrossEntropyLoss() 

train_iter = load_cifarl10(True, train_augs, batch_size) 

test_iter = load_cifarl0(False, test_augs, batch_size) 

train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs=10) 


下 面 使 用 随机 左右 翻转 的 图 像 增 广 来 训练 模型 。 


In [20]: trai 


training on [ 


epoch 
epoch 
epoch 
epoch 
epoch 
epoch 
epoch 
epoch 
epoch 
epoch 


1, loss 
， loss 
, loss 
, loss 


2 
3 
4 
5, loss 
6, loss 
7, loss 
8, loss 
9, loss 


n_with_data_aug(flip_aug, no_aug) 


gpu(0), gpu(1), gpu(2), gpu(3)] 


1.3778, train acc 0.511, test acc 0.581, time 16.2 sec 
0.8236, train acc 0.709, test acc 0.692, time 13.2 sec 
0.6115, train acc 0.787, test acc 0.741, time 13.2 sec 
0.4940, train acc 0.829, test acc 0.797, time 13.1 sec 
0.4103, train acc 0.858, test acc 0.748, time 13.5 sec 
0.3464, train acc 0.880, test acc 0.804, time 13.2 sec 
0.2978, train acc 0.897, test acc 0.832, time 13.4 sec 
0.2471, train acc 0.913, test acc 0.837, time 13.9 sec 
0.2092, train acc 0.928, test acc 0.827, time 13.5 sec 


10, loss 0.1785, train acc 0.938, test acc 0.834, time 13.6 sec 
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图 像 增 广 基于 现 有 训练 数据 生成 随机 图 像 从 而 应 对 过 拟 合 。 

为 了 在 预测 时 得 到 确定 的 结果 ， 通 常 只 将 图 像 增 广 应 用 在 训练 样本 上 ， 而 不 在 预测 时 使 用 含 
随机 操作 的 图 像 增 广 。 

可 以 从 Gluon 的 transforms 模块 中 获取 有 关 图 片 增 广 的 类 。 


练习 

(1) 不 使 用 图 像 增 广 训练 模型 : train_with_data_aug(no_aug，no_aug)。 比 较 有 无 图 
像 增 广 时 的 训练 准确 率 和 测试 准确 率 。 该 对 比 实 验 能 否 支持 图 像 增 广 可 以 应 对 过 拟 合 这 一 论断 ? 
为 什么 ? 

(2) 在 基于 CIFAR-10 数据 集 的 模型 训练 中 增加 不 同 的 图 像 增 广 方法 。 观 察 实 验 结果 。 

(3) 查阅 MXNet 文档 ，Gluon 的 transforms 模块 还 提供 了 哪些 图 像 增 广 方法 ? 





9.2 微调 


在 前 面 的 一 些 章节 (如 5.6 节 至 $.9 节 ) 中 ， 我 们 介绍 了 如 何在 只 有 
6 万 张 图 像 的 Fashion-MNIST 训练 数据 集 上 训练 模型 。 我 们 还 摘 述 了 学 
术 界 当下 使 用 最 广泛 的 大 规模 图 像 数据 集 ImageNet， 它 有 超过 1 000 万 
的 图 像 和 1 000 类 的 物体 。 然 而 ， 我 们 平常 接触 到 的 数据 集 的 规模 通常 在 
这 两 者 之 间 。 


假设 我 们 想 从 图 像 中 识别 出 不 同 种 类 的 椅子 ， 然 后 将 购买 链接 推荐 给 用 户 。 一 种 可 能 的 方 
法 是 先 找 出 100 种 常见 的 椅子 ， 为 每 种 椅子 拍摄 1 000 张 不 同 角度 的 图 像 ， 然 后 在 收集 到 的 图 
像 数 据 集 上 训练 一 个 分 类 模型 。 这 个 椅子 数据 集 虽然 可 能 比 Fashion-MNIST 数据 集 要 庞大 ， 
但 样本 数 仍 然 不 及 ImageNet 数据 集中 样本 数 的 十 分 之 一 。 这 可 能 会 导致 适用 于 ImageNet 数 
据 集 的 复杂 模型 在 这 个 椅子 数据 集 上 过 拟 合 。 同 时 ， 因 为 数据 量 有 限 ， 最 终 训练 得 到 的 模型 
的 精度 也 可 能 达 不 到 实用 的 要 求 。 


为 了 应 对 上 述 问 题 ， 一 个 显而易见 的 解决 办 法 是 收集 更 多 的 数据 。 然 而 ， 收 集 和 标注 数据 
会 花费 大 量 的 时 间 和 资金 。 例 如 ， 为 了 收集 ImageNet 数据 集 ， 研 究 人 员 花 费 了 数 百 万 美元 的 
研究 经 费 。 虽 然 目 前 的 数据 采集 成 本 已 降低 了 不 少 ， 但 其 成 本 仍然 不 可 忽略 。 


另外 一 种 解决 办 法 是 应 用 迁移 学 习 (transfer learning) ， 将 从 源 数据 集 学 到 的 知识 迁移 到 
目标 数据 集 上 。 人 例如， 虽然 ImageNet 数据 集 的 图 像 大 多 跟 椅 子 无 天， 但 在 该 数据 集 上 训练 的 
模型 可 以 抽取 较 通 用 的 图 像 特征 ， 从 而 能 够 帮助 识别 边缘 、 纹 理 、 形 状 和 物体 组 成 等 。 这 些 类 
似 的 特征 对 于 识别 椅子 也 可 能 同样 有 效 。 





9.2 tk e251- 


本 节 我 们 介绍 迁移 学 习 中 的 一 种 常用 技术 一 一 微调 (fine tuning). WE 9-1 所 示 ， 微 调 由 
以 下 4 步 构 成 。 


(1) 在 源 数据 集 (如 ImageNet 数据 集 ) 上 预 训练 一 个 神经 网 络 模 型 ， 即 源 模型 。 

(2) 创建 一 个 新 的 神经 网 络 模型 ， 即 目标 模型 。 它 复制 了 源 模型 上 除了 输出 层 外 的 所 有 模 
型 设计 及 其 参数 。 我 们 假设 这 些 模型 参数 包含 了 源 数据 集 上 学 习 到 的 知识 ， 且 这 些 知识 同样 适 
用 于 目标 数据 集 。 我 们 还 假设 源 模型 的 输出 层 与 源 数据 集 的 标签 紧密 相关 ， 因 此 在 目标 模型 中 
不 予 采用 。 

(3) 为 目标 模型 添加 一 个 输出 大 小 为 目标 数据 集 类 别 个 数 的 输出 层 ， 并 随机 初始 化 该 层 的 
模型 参数 。 

(4) 在 目标 数据 集 〈 如 椅子 数据 集 ) 上 训练 目标 模型 。 我 们 将 从 头 训练 输出 层 ， 而 其 余 层 
的 参数 都 是 基于 源 模 型 的 参数 微调 得 到 的 。 


源 模型 目标 模型 


} 从 头 训练 





预 训练 
se sis 微调 








目标 数据 集 


图 9-1 微调 


当 目 标 数 据 集 远 小 于 源 数 据 集 时 ， 微 调 有 助 于 提升 模型 的 泛 化 能 力 。 


热狗 识别 


接 下 来 我 们 来 实践 一 个 具体 的 例子 一 一 热狗 识别 。 我 们 将 基于 一 个 小 数据 集 对 在 ImageNet 
数据 集 上 训练 好 的 ResNet 模型 进行 微调 。 该 小 数据 集 含有 数 干 张 包含 热狗 和 不 包含 热狗 的 图 
像 。 我 们 将 使 用 微调 得 到 的 模型 来 识别 一 张 图 像 中 是 否 包 含 热狗 。 


首先 ， 导 入 实验 所 需 的 包 或 模块 。Gluon 的 model_zoo 包 提 供 了 常用 的 预 训练 模型 。 如 果 
希望 获取 更 多 的 计算 机 视觉 的 预 训练 模型 ， 可 以 使 用 GluonCV TA. © 


© GluonCV 工 具 包 参见 https://gluon-cv.mxnet.io/。 
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In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet import gluon, init, nd 
from mxnet.gluon import data as gdata, loss as gloss, model_zoo 
from mxnet.gluon import utils as gutils 
import os 
import zipfile 


1. 获取 数据 集 


我 们 使 用 的 热狗 数据 集 是 从 网 上 抓 取 的 ， 它 含有 1 400 张 包含 热狗 的 正 类 图 像 ， 和 同样 多 
包含 其 他 食品 的 负 类 图 像 。 各 类 的 1 000 张 图 像 被 用 于 训练 ， 其 余 则 用 于 测试 。 


我 们 首先 将 压缩 后 的 数据 集 下 载 到 路 径 ../data 之 下 ， 然 后 在 该 路 径 将 下 载 好 的 数据 集 
解压 ， 得 到 两 个 文件 夹 hotdog/train 和 hotdog/test。 这 两 个 文件 夹 下 面 均 有 hotdog 和 
not-hotdog 两 个 类 别 文件 夹 ， 每 个 类 别 文件 夹 里 面 是 图 像 文件 。 


In TT21 data UME =". Gata’ 
base_url = 'https://apache-mxnet.s3-accelerate.amazonaws.com/' 
fname = gutils.download( 
base_url + 'gluon/dataset/hotdog.zip', 
path=data_dir, shal_hash=' fba480ffa8aa7e0 febbb511d181409f899b9baa5' ) 
with zipfile.ZipFile(fname, 'r') as z: 
z.extractall(data_dir) 


我 们 创建 两 个 ImageFolderDataset 实例 来 分 别 读 取 训练 数据 集 和 测试 数据 集中 的 所 有 
图 像 文件 。 


In [3]: train_imgs = gdata.vision.ImageFolderDataset ( 
os.path.join(data_dir, 'hotdog/train')) 

test_imgs = gdata.vision.ImageFolderDataset ( 
os.path.join(data_dir, 'hotdog/test')) 


下 面 画 出 前 8 张 正 类 图 像 和 最 后 8 张 负 类 图 像 。 可 以 看 到 ， 它 们 的 大 小 和 高 宽 比 各 不 相同 。 


In [4]: hotdogs = [train_imgs[i][0] for i in range(8) ] 
not_hotdogs = [train_imgs[-i - 1][0] for i in range(8) ] 
d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4); 
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在 训练 时 ， 我 们 先 从 图 像 中 裁剪 出 随机 大 小 和 随机 高 宽 比 的 一 块 随机 区 域 ， 然 后 将 该 区 域 
缩放 为 高 和 宽 均 为 224 像素 的 输入 。 测 试 时 ， 我 们 将 图 像 的 高 和 宽 均 缩放 为 256 像素 ， 然 后 从 
中 裁剪 出 高 和 宽 均 为 224 像素 的 中 心 区 域 作为 输入 。 此 外 ， 我 们 对 RGB C Sk. Hi) 三 个 
颜色 通道 的 数值 做 标准 化 : 每 个 数值 减 去 该 通道 所 有 数值 的 平均 值 ， 再 除 以 该 通道 所 有 数值 的 
标准 差 作 为 输出 。 

In [5]: # 指定 RGB 三 个 通道 的 均值 和 方差 来 将 图 像 通 道 归 一 化 


normalize = gdata.vision.transforms.Normalize( 
[0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) 


train_augs = gdata.vision.transforms.Compose([ 
gdata.vision.transforms.RandomResizedCrop (224) , 
gdata.vision.transforms.RandomFlipLeftRight() , 
gdata.vision.transforms.ToTensor(), 
normalize] ) 


test_augs = gdata.vision.transforms.Compose([ 
gdata.vision.transforms.Resize(256) , 
gdata.vision.transforms.CenterCrop (224), 
gdata.vision.transforms.ToTensor(), 
normalize] ) 


2. 定义 和 初始 化 模型 


我 们 使 用 在 ImageNet 数据 集 上 预 训练 的 ResNet-18 作为 源 模型 。 这 里 指定 pretrained=True 
来 自动 下 载 并 加 载 预 训练 的 模型 参数 。 在 第 一 次 使 用 时 需要 联网 下 载 模型 参数 。 


In [6]: pretrained_net = model_zoo.vision.resnet18_v2(pretrained=True) 


预 训练 的 源 模型 实例 含有 两 个 成 员 变 量 ， 即 features 和 output。 前 者 包含 模型 除 输 出 
层 以 外 的 所 有 层 ， 后 者 为 模型 的 输出 层 。 这 样 划 分 主要 是 为 了 方便 微调 除 输出 层 以 外 所 有 层 的 
模型 参数 。 下 面 打印 源 模型 的 成 员 变 量 output。 作 为 一 个 全 连接 层 ， 它 将 ResNet 最 终 的 全 局 
平均 池 化 层 输 出 变换 成 ImageNet 数据 集 上 1 000 类 的 输出 。 


In [7]: pretrained_net.output 


Out[7]: Dense(512 -> 1000, Linear) 


我 们 新 建 一 个 神经 网 络 作为 目标 模型 。 它 的 定义 与 预 训练 的 源 模型 一 样 ， 但 最 后 的 输出 
个 数 等 于 目标 数据 集 的 类 别 数 。 在 下 面 的 代码 中 ， 目 标 模型 实例 finetune_net 的 成 员 变 量 
features 中 的 模型 参数 被 初始 化 为 源 模 型 相应 层 的 模型 参数 。 由 于 features 中 的 模型 参数 
是 在 ImageNet 数据 集 上 预 训 练 得 到 的 ， 已 经 足够 好 ， 因 此 一 般 只 需 使 用 较 小 的 学 习 率 来 微调 
这 些 参数 。 而 成 员 变 量 output 中 的 模型 参数 采用 了 随机 初始 化 ， 一 般 需 要 更 大 的 学 习 率 从 头 
训练 。 假 设 Trainer 实例 中 的 学 习 率 为 xn”， 我 们 设 成 员 变 量 output 中 的 模型 参数 在 迭代 中 使 
用 的 学 习 率 为 107。 
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In [8]: finetune_net = model_zoo.vision.resnet18_v2(classes=2) 
finetune_net.features = pretrained_net. features 
finetune_net.output.initialize(init.Xavier()) 

# output 中 的 模型 参数 将 在 迭代 中 使 用 10 倍 大 的 学 习 率 


finetune_net.output.collect_params().setattr('lr_mult', 10) 


3. 微调 模型 
我 们 先 定义 一 个 使 用 微调 的 训练 函数 train_fine_tuning 以 便 多 次 调用 。 


In [9]: def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5): 

train_iter = gdata.DataLoader ( 
train_imgs.transform_first(train_augs), batch_size, shuffle=True) 

test_iter = gdata.DataLoader ( 
test_imgs.transform_first(test_augs), batch_size) 

ctx = d2l.try_all_gpus() 

net.collect_params().reset_ctx (ctx) 

net. hybridize() 

loss = gloss.SoftmaxCrossEntropyLoss() 

trainer = gluon.Trainer(net.collect_params(), 'sgd', { 
'learning_rate': learning_rate, 'wd': 0.001}) 

d2l.train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs) 


我 们 将 Trainer 实例 中 的 学 习 率 设 得 小 一 点 ， 如 0.01， 以 便 微 调 预 训 练 得 到 的 模型 参数 。 
根据 前 面 的 设置 ， 我 们 将 以 10 倍 的 学 习 率 从 头 训 练 目 标 模 型 的 输出 层 参 数 。 


In [10]: train_fine_tuning(finetune_net, 0.01) 


training on [gpu(0), gpu(1), gpu(2), gpu(3)] 

epoch 1, loss 3.7794, train acc 0.662, test acc 0.915, time 10.4 sec 
epoch 2, loss 0.3597, train acc 0.911, test acc 0.649, time 8.8 sec 

epoch 3, loss 0.9108, train acc 0.847, test acc 0.802, time 8.7 sec 

epoch 4, loss 0.3472, train acc 0.905, test acc 0.844, time 8.7 sec 

epoch 5, loss 0.3513, train acc 0.895, test acc 0.863, time 8.7 sec 


作为 对 比 ， 我 们 定义 一 个 相同 的 模型 ， 但 将 它 的 所 有 模型 参数 都 初始 化 为 随机 值 。 由 于 整 
个 模型 都 需要 从 头 训练 ， 我 们 可 以 使 用 较 大 的 学 习 率 。 


In [11]: scratch_net = model_zoo.vision.resnet18_v2(classes=2) 
scratch_net.initialize(init=init.Xavier()) 
train_fine_tuning(scratch_net, 0.1) 


training on [gpu(0), gpu(1), gpu(2), gpu(3)] 

epoch 1, loss 0.7574, train acc 0.668, test acc 0.738, time 9.1 sec 
epoch 2, loss 0.4292, train acc 0.812, test acc 0.770, time 8.7 sec 
epoch 3, loss 0.3917, train acc 0.828, test acc 0.864, time 8.6 sec 
epoch 4, loss 0.4013, train acc 0.824, test acc 0.794, time 8.6 sec 
epoch 5, loss 0.3846, train acc 0.829, test acc 0.836, time 8.7 sec 
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可 以 看 到 ， 微 调 的 模型 因为 参数 初始 值 更 好 ， 人 往往 在 相同 迭代 周期 下 取得 更 高 的 精度 。 


迁移 学 习 将 从 源 数据 集 学 到 的 知识 迁移 到 目标 数据 集 上 。 微 调 是 迁移 学 习 的 一 种 常用 技术 。 
目标 模型 复制 了 源 模型 上 除了 输出 层 外 的 所 有 模型 设计 及 其 参数 ， 并 基于 目标 数据 集 微调 这 
些 参 数 ， 而 目标 模型 的 输出 层 需 要 从 头 训 练 。 

一 般 来 说 ， 微 调 参数 会 使 用 较 小 的 学 习 率 ， 而 从 头 训 练 输出 层 可 以 使 用 较 大 的 学 习 率 。 


练习 

(1) 不 断 增 大 finetune_net 的 学 习 率 。 准 确 率 会 有 什么 变化 ? 

(2) 进一步 调节 对 比试 验 中 finetune_net 和 scratch_net 的 超 参 数 。 它 们 的 精度 是 不 是 
依然 有 区 别 ? 

(3) 将 finetune_net.features 中 的 参数 固定 为 源 模型 的 参数 而 不 在 训练 中 迭代 ， 结 果 会 
怎样 ? 你 可 能 会 用 到 以 下 代码 。 


In [12]: finetune_net.features.collect_params().setattr('grad_req', 'null') 


(4) 事实 上 ImageNet 数据 集 里 也 有 “hotdog”( 热 狗 ) 这 个 类 。 它 在 输出 层 对 应 的 权重 参数 可 以 
用 以 下 代码 获取 。 我 们 可 以 怎样 使 用 这 个 权重 参数 ? 
In £13]: weight = pretrained_net.output.weight 


hotdog_w = nd.split(weight.data(), 1000, axis=0) [713] 
hotdog_w.shape 


Out[13]: (1, 512) 
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在 前 面 的 一 些 章节 (如 5.6 节 至 5.9 节 ) 中 我 们 介绍 了 诸多 用 于 图 像 
分 类 的 模型 。 在 图 像 分 类 任务 里 ， 我 们 假设 图 像 里 只 有 一 个 主体 目标 ， 并 
关注 如 何 识 别 该 目标 的 类 别 。 然 而 ， 很 多 时 候 图 像 里 有 多 个 我 们 感 兴趣 的 
目标 ， 我 们 不 仅 想 知道 它们 的 类 别 ， 还 想得到 它们 在 图 像 中 的 具体 位 置 。 
在 计算 机 视觉 里 ， 我 们 将 这 类 任务 称 为 目标 检测 Cobject detection) 或 物体 
检测 。 

目标 检测 在 多 个 领域 中 被 广泛 使 用 。 例 如 ， 在 无 人 驾驶 里 ， 我 们 需要 通过 识别 拍摄 到 的 视 
频 图 像 里 的 车 辆 、 行 人 、 道 路 和 障碍 的 位 置 来 规划 行进 线路 。 机 器 人 也 和 常 通过 该 任务 来 检测 感 
兴趣 的 目标 。 安 防 领域 则 需要 检测 异常 目标 ， 如 有 未 徒 或 者 炸弹 。 

在 接 下 来 的 9.4 节 至 9.8 节 里 ， 我 们 将 介绍 目标 检测 里 的 多 个 深度 学 习 模 型 。 在 此 之 前 ， 
让 我 们 来 了 解 目 标 位 置 这 个 概念 。 先 导入 实验 所 需 的 包 或 模块 。 
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In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet import image 


下 面 加 载 本 节 将 使 用 的 示例 图 像 。 可 以 看 到 图 像 左 边 是 一 只 狗 ， 右 边 是 一 只 狂 。 它 们 十 这 
张 图 像 里 的 两 个 主要 目标 。 
In [2]: d2l.set_figsize() 


img = image.imread('../img/catdog.jpg') .asnumpy () 
d21l.plt.imshow(img); # 加 分 号 只 显示 图 





边界 框 

在 目标 检测 里 ， 我 们 通常 使 用 边界 框 (bounding box) 来 描述 目标 位 置 。 边界 框 是 一 个 和 矩 
形 框 ， 可 以 由 矩形 左上 角 的 x 和 yy BAB in SOR A x Al y 轴 上 坐标 确定 。 我 们 根据 上 面 的 图 的 
坐标 信息 来 定义 图 中 狗 和 猫 的 边界 框 。 图 中 的 坐标 原点 在 图 像 的 左上 和 角 ， 原 点 往 右 和 往 下 分 别 
为 x HAFI y 轴 的 正方 同 。 


In [3]: # bbox 是 bounding box 的 缩写 
dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493] 


我 们 可 以 在 图 中 将 边界 框 画 出 来 ， 以 检查 其 是 否 准确 。 画 之 前 ， 我 们 定义 一 个 辅助 函数 
bbox_to_rect。 它 将 边界 框 表示 成 matplotlib 的 边界 框 格式 。 


In [4]: def bbox_to_rect(bbox, color): # 本 国 数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
# 将 边界 框 ( 左 上 x， 左 上 y， 右 下 x， 右 下 y) 格 式 转换 成 mratpLotLib 格 式 : 
# ((A Ex, Ay), w W) 
return d21l.plt.Rectangle( 
xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1], 
fill=False, edgecolor=color, Linewidth=2) 


我 们 将 边界 框 加 载 在 图 像 上 ， 可 以 看 到 目标 的 主要 轮廓 基本 在 框 内 《〈 另 见 彩 插图 10). 


In [5]: fig = d2l.plt.imshow(img) 
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue')) 
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red')); 
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小 结 
© 在 目标 检测 里 不 仅 需要 找 出 图 像 里 面 所 有 感 兴趣 的 目标 ， 而 且 要 知道 它们 的 位 置 。 位 置 一 般 
由 矩形 边界 框 来 表示 。 


练习 
找 一 些 图 像 ， 尝 试 标注 其 中 目标 的 边界 框 。 比 较 标注 边界 框 与 标注 类 别 所 花 时 间 的 差异 。 





9.4 iE 





目标 检测 算法 通常 会 在 输入 图 像 中 采样 大 量 的 区 域 ， 然 后 判断 这 些 区 [m] 
域 中 是 否 包含 我 们 感 兴趣 的 目标 ， 并 调整 区 域 边缘 从 而 更 准确 地 预测 目标 
的 真实 边界 框 (ground-truth bounding box)。 不 同 的 模型 使 用 的 区 域 采 样 
方法 可 能 不 同 。 这 里 我 们 介绍 其 中 的 一 种 方法 : 它 以 每 个 像素 为 中 心 生成 
多 个 大 小 和 宽 高 比 Caspect ratio) 不 同 的 边界 框 。 这 些 边 界 框 被 称 为 锚 框 
(anchor box)。 我 们 将 在 9.7 节 基 于 锚 框 实践 目标 检测 。 


首先 ， 导 入 本 节 需 要 的 包 或 模块 。 这 里 我 们 新 引入 了 contrib 包 ， 并 修改 了 NumPy 的 打 
印 精度 。 由 于 NDArray 的 打印 实际 调用 NumPy 的 打印 函数 ， 本 节 打 印 出 的 NDArray PAYEE RA 
数 更 简洁 一 些 。 
In [1]: %matplotlib inline 
import d2lzh as d2l 


from mxnet import contrib, gluon, image, nd 
import numpy as np 






np.set_printoptions (2) 


9.4.1 生成 多 个 销 框 
假设 输入 图 像 高 为 h， 宽 为 w。 我 们 分 别 以 图 像 的 每 个 像素 为 中 心 生成 不 同形 状 的 锚 框 。 
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设 大 小 为 se (0,1] 且 宽 高 比 为 >>0， 那 么 锚 框 的 宽 和 高 将 分 别 为 wsVr 和 js/Vr。 当 中 心 位 置 
给 定时 ， 已 知 宽 和 高 的 锚 框 是 确定 的 。 


下 面 我 们 分 别 设 定好 一 组 大 小 51,…, Sn 和 一 组 宽 高 比 帮 ……,m。 如 果 以 每 个 像素 为 中 心 时 
使 用 所 有 的 大 小 与 宽 高 比 的 组 合 ， 输 入 图 像 将 一 共 得 到 whnm 个 锚 框 。 虽 然 这 些 锚 框 可 能 履 兰 
了 所 有 的 真实 边界 框 ， 但 计算 复杂 度 容易 过 高 。 因 此 ， 我 们 通常 只 对 包含 s r 的 大 小 与 宽 
高 比 的 组 合 感 兴趣 ， 即 


(Si; 4), (5 (S3, 万 )， (s3, 用 ) i, (Ss n) 


Eie, DARA At AY BEN Bt n+m-l MPR AAR, RIA — H 
生成 wh (n+m-—1) 个 锚 框 。 


以 上 生成 锚 框 的 方法 已 实现 在 MultiBoxPrior 函数 中 。 指 定 输入 、 一 组 大 小 和 一 组 宽 高 
比 ， 该 函数 将 返回 输入 的 所 有 销 框 。 


In [2]: img = image.imread('../img/catdog.jpg').asnumpy() 
h, w = img.shape[0:2] 


print(h, w) 

X = nd.random.uniform(shape=(1, 3, h, w)) # 构造 输入 数据 

Y = contrib.nd.MultiBoxPrior(X, sizes=[0.75, 0.5, 0.25], ratios=[1, 2, 0.5]) 
Y.shape 


561 728 


Out[2]: (1, 2042040, 4) 


我 们 看 到 ， 返 回 的 锚 框 变量 y 的 形状 为 (批量 大 小 , 锚 框 个 数 , 4)。 将 锚 框 变量 y 的 形状 变 
为 (图 像 高 , 图 像 宽 , 以 相同 像素 为 中 心 的 锚 框 个 数 , 4) 后 ， 我 们 就 可 以 通过 指定 像素 位 置 来 获 
取 所 有 以 该 像素 为 中 心 的 锚 框 了 。 下 面 的 例子 里 我 们 访问 以 (250, 250) 为 中 心 的 第 一 个 错 框 。 
它 有 4 个 元 素 ， 分 别 是 锚 框 左上 角 的 x A y 轴 坐 标 和 右 下 角 的 x A y AHAB, HEP x 和 ? 轴 的 
坐标 值 分 别 已 除 以 图 像 的 宽 和 高 ， 因 此 值 域 均 为 0 和 1 之 间 。 


In [3]: boxes = Y.reshape((h, w, 5, 4)) 
boxes[250, 250, 0, :] 


Out[3]: 
[0.06 0.07 0.63 0.82] 
<NDArray 4 @cpu(0)> 


为 了 描绘 图 像 中 以 某 个 像素 为 中 心 的 所 有 锚 框 ， 我 们 先 定义 show_bboxes 函数 以 便 在 图 
像 上 男 出 多 个 边界 杠 。 
In [4]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def show_bboxes(axes, bboxes, labels=None, colors=None): 
def make_list(obj, default_values=None) : 
if obj is None: 
obj = default_values 
elif not isinstance(obj, (list, tuple)): 


94 锚 框 »° 259° 


obj = [obj] 
return obj 


labels = _make_list(labels) 
colors = -make_List(coters, vb ss “2% Er ‘wm? .-"¢' dd 
for i, bbox in enumerate(bboxes): 
color = colors[i % lLen(colors) ] 
rect = d21.bbox_to_rect(bbox.asnumpy(), color) 
axes.add_patch(rect) 
if labels and len(labels) > i: 
text_color = 'k'’ FF color == 'w' else 'w' 
axes.text(rect.xy[0], rect.xy[1], labels[i], 
va='center', ha='center', fontsize=9, color=text_color, 
bbox=dict(facecolor=color, lw=0)) 


刚刚 我 们 看 到 ， 变 量 boxes P x Al y 轴 的 坐标 值 分 别 已 除 以 图 像 的 宽 和 高 。 在 绘图 时 ， 我 
们 需要 恢复 锚 框 的 原始 坐标 值 ， 并 因此 定义 了 变量 bbox_scale。 现 在 ， 我们 可 以 画 出 图 像 中 
以 (250, 250) 为 中 心 的 所 有 锁 框 了 〈( 男 见 彩 插图 11)。 可 以 看 到 ， 大 小 为 0.75 且 宽 高 比 为 1 的 
锚 框 较 好 地 覆盖 了 图 像 中 的 狗 。 


In [5]: d2l.set_figsize() 
bbox_scale = nd.array((w, h,- w, h)) 
fig = d21l.plt.imshow(img) 
show_bboxes(fig.axes, boxes[250, 250, :, :] * bbox_scale, 
['s=0.75, r=1', "s=0.5, r=1', "530,25; r=1', 's=0.75, r=2', 
's=0.75, r=0.5']) 


s=0.75, r=0.5 





9.4.2 交 并 比 


我 们 刚刚 提 到 某 个 销 框 较 好 地 覆盖 了 图 像 中 的 狗 。 如 果 该 目标 的 真实 边界 框 已 知 ， 这 里 的 
“ 较 好 ”该 如 何 量化 呢 ? 一 种 直观 的 方法 是 衡量 锚 框 和 真实 边界 框 之 间 的 相似 度 。 我 们 知道 ， 
Jaccard 系数 (Jaccard index) 可 以 衡量 两 个 集合 的 相似 度 。 给 定 集合 A 和 B85， 它 们 的 Jaccard 
系数 即 二 者 交集 大 小 除 以 二 者 并 集 大 小 : 
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ANB| 
IAUB| 


实际 上 ， 我 们 可 以 把 边界 框 内 的 像素 区 域 看 成 是 像素 的 集合 。 如 此 一 来 ， 我 们 可 以 用 两 
个 边界 框 的 像素 集合 的 Jaccard 系数 衡量 这 两 个 边 
界 框 的 相似 度 。 当 衡量 两 个 边界 框 的 相似 度 时 ， 我 g 
们 通常 将 Jaccard 系数 称 为 交 并 比 (intersection over 
union，IoU)， 即 两 个 边界 框 相交 面积 与 相 并 面积 
之 比 ， 如 图 9-2 所 示 。 交 并 比 的 取 值 范围 在 0 和 1 
之 间 : 0 表示 两 个 边界 框 无 重合 像素 ，1 表示 两 个 边 
界 框 相 等 。 


J(A, B) = 











IoU = 





在 本 节 的 剩余 部 分 ， 我 们 将 使 用 交 并 比 来 衡量 图 9-2 交 并 比 是 两 个 边界 框 相 交 
锁 框 与 真实 边界 框 以 及 销 框 与 销 框 之 间 的 相似 度 。 面积 与 相 并 面积 之 比 


9.4.3 ”标注 训练 集 的 销 框 


在 训练 集中 ， 我 们 将 每 个 锚 框 视 为 一 个 训练 样本 。 为 了 训练 目标 检测 模型 ， 我 们 需要 为 每 
个 锚 杠 标注 两 类 标签 : 一 是 锚 框 所 含 目标 的 类 别 ， 简 称 类 别 ， 二 是 真实 边界 框 相对 锚 框 的 偶 移 
量 ， 简 称 偏 移 量 (offset)。 在 目标 检测 时 ， 我 们 首先 生成 多 个 锁 框 ， 然 后 为 每 个 锚 框 预测 类 别 
以 及 仿 移 量 ， 接 着 根据 预测 的 偏 移 量 调整 销 框 位 置 从 而 得 到 预测 边界 框 ， 最 后 沪 选 需要 输出 的 
预测 边界 框 。 


我 们 知道 ， 在 目标 检测 的 训练 集中 ， 每 个 图 像 已 标注 了 真实 边界 框 的 位 置 以 及 所 含 目标 的 
类 别 。 在 生成 销 框 之 后 ， 我 们 主要 依据 与 锚 框 相似 的 真实 边界 框 的 位 置 和 类 别 信息 为 销 框 标 
注 。 那 么 ， 该 如 何 为 锚 框 分 配 与 其 相似 的 真实 边界 框 呢 ? 


假设 图 像 中 锚 框 分 别 为 4, A, 4, ， 真 实 边界 框 分 别 为 B, By, Bap Hn, 2 nyo EX 
矩阵 X eR", Fb 4TH | 列 的 元 素 y 为 锚 框 4 与 真实 边界 框 B, 的 交 并 比 。 首先 ， 我 
们 找 出 矩阵 X 中 最 大 元 素 ， 并 将 该 元 素 的 行 索引 与 列 索引 分 别 记 为 h je RIIE 4, 分 配 
真实 边界 框 B, BA, WE A, 和 真实 边界 框 B, 在 所 有 的 “ 锚 框 - 真实 边界 框 ”的 配对 中 相 
似 度 最 高 。 接 下 来 ， 将 和 矩阵 关中 第 市 行 和 第 方 列 上 的 所 有 元 素 丢弃 。 找 出 矩阵 区 中 剩余 的 最 
大 元 素 ， 并 将 该 元 素 的 行 索引 与 列 索引 分 别 记 为 二, jy。 我 们 为 锚 框 4 分 配 真实 边界 框 B,， 青 
HAERE X HE h TAUB 户 列 上 的 所 有 元 素 丢 弃 。 此 时 矩阵 于 中 已 有 2 行 2 列 的 元 素 被 丢弃 。 
依 此 类 推 ， 直 到 矩阵 关中 所 有 m 列 元 素 全 部 被 丢弃 。 这 个 时 候 ， 我 们 已 为 个 锚 框 各 分 配 了 
一 个 真实 边界 框 。 接 下 来 ， 我 们 只 遍历 剩余 的 n -n 个 锚 框 给 定 其 中 的 锚 框 4 ， 根 据 矩 阵 
XX 的 第 i 行 找到 与 4 交 并 比 最 大 的 真实 边界 框 B  ， 且 只 有 当 该 交 并 比 大 于 预先 设 定 的 阔 值 时 ， 
才 为 错 框 4, 分 配 真实 边界 框 B . 

如 图 9-3 (E) 所 示 ， 假 设 矩阵 X 中 最 大 值 为 3 ， 我 们 将 为 锚 框 4, 分 配 真实 边界 框 B 


然后 ， 丢 弃 和 矩阵 中 第 2 行 和 第 3 列 的 所 有 元 素 ， 找 出 剩余 阴影 部 分 的 最 大 元 素 2 IWE A 
分 配 真实 边界 框 BB。 接着 如 图 9-3 CH) 所 示 ， 丢 弃 窃 阵 中 第 7 行 和 第 1 列 的 所 有 元 素 ， 找 出 
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剩余 阴影 部 分 的 最 大 元 素 xs4 ， 为 锚 框 As 分 配 真实 边界 框 B,. Ba 9-3 (A) Pra, EF 
EERE 5 行 和 第 4 列 的 所 有 元 素 ， 找 出 剩余 阴影 部 分 的 最 大 元 素 zx: ， 为 锚 框 Ay 分 配 真 实 
边界 框 Boo Zia, BANA Pew RA A, As, A, A 的 剩余 锚 框 ， 并 根据 半 值 判断 是 否 为 剩余 
锚 框 分 配 真 实 边界 框 。 


真实 边界 框 索 引 
oe a ee 和 SPE E ae 


LU St Pe BB 





现在 我 们 可 以 标注 锚 框 的 类 别 和 偏 移 量 了 。 如 果 一 个 锚 框 4 被 分 配 了 真实 边界 框 互 ， 将 锚 
HEA 的 类 别 设 为 B 的 类 别 ， 并 根据 和 4 的 中 心 坐 标的 相对 位 置 以 及 两 个 框 的 相对 大 小 为 锚 
HE 4 标注 偏 移 量 。 由 于 数据 集中 各 个 框 的 位 置 和 大 小 各 异 ， 因 此 这 些 相 对 位 置 和 相对 大 小 通常 
需要 一 些 特殊 变换 ， 才 能 使 偏 移 量 的 分 布 更 均匀 从 而 更 容易 拟 合 。 设 锚 框 4 及 其 被 分 配 的 真实 
边界 框 刀 的 中 心 坐 标 分 别 为 Xas Va) 和 (%,y)，A4 和 B 的 宽 分 别 为 Wa 和 好， 高 分 别 为 所 和 
为 ， 一 个 常用 的 技巧 是 将 4 的 偏 移 量 标注 为 

ER <r — iog Hn log =y 


> 
O, om a 





Oh 


其 中 第 数 的 默认 值 为 如 = My = My = My, =0, 0, =0, =0.1, 0, =0, =0.2. WR — AREA & 
分 配 真实 边界 框 ， 我 们 只 需 将 该 锚 框 的 类 别 设 为 背景 。 类 别 为 背景 的 锚 框 通常 被 称 为 负 类 锚 
框 ， 其 余 则 被 称 为 正 类 锚 框 。 


下 面 演 示 一 个 具体 的 例子 。 我 们 为 读 取 的 图 像 中 的 猫 和 狗 定 义 真实 边界 框 ， 其 中 第 一 个 
元 素 为 类 别 (0 为 狗 ，1 Ni), BA 4 个 元 素 分 别 为 左上 角 的 x 和 >》 轴 坐 标 以 及 右 下 角 的 x 和 
y ABER CERE 0 到 1 之 间 )。 这 里 通过 左上 角 和 右 下 角 的 坐标 构造 了 5 个 需要 标注 的 锚 框 ， 
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分 别 记 为 4,…, Ay (程序 中 索引 从 0 开始)。 先 画 出 这 些 销 框 与 真实 边界 框 在 图 像 中 的 位 置 CA 
见 彩 插图 12). 


In [6]: ground_truth = nd.array([[0, 0.1, 0.08, 0.52, 0.92], 
[1, 0.55, 0.2, 0.9, ©.88]]) 
anchors = nd.array([[0, 0.1, 0.2, 0.3], [0.15, 0.2, 0.4, 0.4], 
[0.63, 0.05, 0.88, 0.98], [0.66, 0.45, 0.8, 0.8], 
[0.57, 0.3, 0.92, 0.9]]) 


fig = d2l.plt.imshow(img) 
show_bboxes(fig.axes, ground_truth[:, 1:] * bbox_scale, ['dog', 'cat'], 'k') 
show_bboxes(fig.axes, anchors * bbox_scale, TOS '1', '2', '3', '4']); 
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我 们 可 以 通过 contrib.nd 模块 中 的 MultiBoxTarget 函数 来 为 错 框 标注 类 别 和 偏 移 量 。 
该 函数 将 背景 类 别 设 为 0， 并 令 从 0 开始 的 目标 类 别 的 整数 索引 自 加 1 (1 为 狗 ，2 为 猫 )。 我 
们 通过 expand_dims 函数 为 销 框 和 真实 边界 框 添 加 样本 维 ， 并 构造 形状 为 (批量 大 小 , 包括 背 
景 的 类 别 个 数 , 销 框 数 ) 的 任意 预测 结果 。 

In [7]: labels = contrib.nd.MultiBoxTarget(anchors.expand_dims (axis=0), 


ground_truth.expand_dims(axis=0), 
nd.zeros((1, 3, 5))) 


返回 的 结果 里 有 3 项 ， 均 为 NDArray。 第 三 项 表示 为 锚 框 标注 的 类 别 。 


In [8]: labels[2] 


Out[8]: 
Bk ee See Se Se ae 
<NDArray 1x5 @cpu(0)> 


我 们 根据 锁 框 与 真实 边界 框 在 图 像 中 的 位 置 来 分 析 这 些 标注 的 类 别 。 首 先 ， 在 所 有 的 “ 锚 
框 - 真实 边界 框 ”的 配对 中 ， 销 框 A, 与 猫 的 真实 边界 框 的 交 并 比 最 大 ， 因 此 锚 框 A, 的 类 别 
标注 为 猫 。 不 考虑 锚 框 A, 或 猫 的 真实 边界 框 ， 在 剩余 的 “ 锚 框 - 真实 边界 框 ” 的 配对 中 ， 最 
大 区 并 比 的 配对 为 锚 框 4 和 狗 的 真实 边界 框 ， 因 此 锚 框 4 的 类 别 标注 为 狗 。 接 下 来 遍历 未 标 
注 的 剩余 3 个 锚 框 : 与 锚 框 Ay 交 并 比 最 大 的 真实 边界 框 的 类 别 为 狗 ， 但 交 并 比 小 于 阔 值 〈 默 
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认为 0.5)， 因 此 类 别 标注 为 背景 ， 与 锚 框 A, 交 并 比 最 大 的 真实 边界 框 的 类 别 为 猫 ， 且 交 并 比 
大 于 国 值 ， 因 此 类 别 标注 为 猫 ， SHE A, 交 并 比 最 大 的 真实 边界 框 的 类 别 为 猫 ， 但 交 并 比 小 
于 国 值 ， 因 此 类 列 标注 为 背景 。 


返回 值 的 第 二 项 为 掩 码 (mask) 变量 ， 形 状 为 (批量 大 小 , 锚 框 个 数 的 4 倍 )。 掩 码 变量 
中 的 元 素 与 每 个 锚 框 的 4 个 偏 移 量 一 一 对 应 。 由 于 我 们 不 关心 对 背景 的 检测 ， 有 关 负 类 的 偏 移 
量 不 应 影响 目标 函数 。 通 过 按 元 素 乘法 ， 掩 码 变 量 中 的 0 可 以 在 计算 目标 函数 之 前 过 滤 掉 负 类 
的 偏 移 量 。 


In [9]: lLabels[1] 


Out[9]: 
fo. 人 
<NDArray 1x20 @cpu(Q)> 


返回 的 第 一 项 是 为 每 个 销 框 标注 的 4 个 偏 移 量 ， 其 中 负 类 销 框 的 偏 移 量 标注 为 0。 


In [10]: labels[0] 


Out[10]: 

[[ ©.00e+00 0.00e+00 ©.00e+00 0.00e+00 1.40e+00 1.00e+01 2.59e+00 
7.18e+00 -1.20e+00 2.69e-01 1.68e+00 -1.57e+00 0.00e+00 0.00e+00 
©.00e+00 0.00e+00 -5.71e-01 -1.00e+00 -8.94e-07 6.26e-01] ] 

<NDArray 1x20 @cpu(0)> 


9.4.4 输出 预测 边界 杠 


在 模型 预测 阶段 ， 我 们 先 为 图 像 生 成 多 个 锚 框 ， 并 为 这 些 锚 框 一 一 预测 类 别 和 偏 移 量 。 随 
后 ， 我 们 根据 锚 框 及 其 预测 偏 移 量 得 到 预测 边界 框 。 当 锚 框 数量 较 多 时 ， 同 一 个 目标 上 可 能 会 
输出 较 多 相似 的 预测 边界 框 。 为 了 使 结果 更 加 简洁 ， 我 们 可 以 移 除 相似 的 预测 边界 框 。 常 用 的 
方法 叫 作 非 极 大 值 抑 制 Cnon-maximum suppression, NMS). 


我 们 来 描述 一 下 非 极 大 值 抑制 的 工作 原理 。 对 于 一 个 预测 边界 框 3， 模型 会 计算 各 个 类 别 
的 预测 概率 。 设 其 中 最 大 的 预测 概率 为 p， 该 概率 所 对 应 的 类 别 即 B 的 预测 类 别 。 我 们 也 将 p 
称 为 预测 边界 框 B 的 置信 度 。 在 同一 图 像 上 ， 我 们 将 预测 类 别 非 背 景 的 预测 边界 框 按 置信 和 度 从 
高 到 低 排 序 ， 得 到 列表 KL。 从 工 中 选取 置信 和 度 最 高 的 预测 边界 框 B 作 为 基准 ， 将 所 有 与 B 的 
交 并 比 大 于 茶 国 值 的 非 基 准 预测 边界 框 从 工 中 移 除 。 这 里 的 阀 值 是 预先 设 定 的 超 参数 。 此 时 ， 
L 保留 了 置信 度 最 高 的 预测 边界 框 并 移 除 了 与 其 相似 的 其 他 预测 边界 框 。 接 下 来 ， 从 工 中 选取 
置信 和 度 第 二 高 的 预测 边界 框 B 作为 基准 ， 将 所 有 与 B, 的 交 并 比 大 于 某 阔 值 的 非 基准 预测 边界 
框 从 工 中 移 除 。 重 复 这 一 过 程 ， 直 到 元 中 所 有 的 预测 边界 框 都 曾 作为 基准 。 此 时 工 中 任意 一 
对 预测 边界 框 的 交 并 比 都 小 于 国 值 。 最 终 ， 输 出 列表 工 中 的 所 有 预测 边界 杠 。 


下 面 来 看 一 个 具体 的 例子 。 先 构造 4 个 锚 框 。 简 单 起 见 ， 我 们 假设 预测 偏 移 量 全 是 0 M 
测 边 界 框 即 锁 框 。 最 后 ， 我 们 构造 每 个 类 别 的 预测 概率 。 
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In [11]: anchors = nd.array([[0.1, 0.08, 0.52, 0.92], [0.08, 0.2, 0.56, 0.95], 
[0.15, 0.3, 0.62, 0.91], [0.55, 0.2, 0.9, 0.88]]) 
offset_preds = nd.array([0] * anchors.size) 
cls_probs = nd.array([[0] * 4, # 背景 的 预测 概率 
[0.9, 0.8, 0.7, 0.1], # 狗 的 预测 概率 
[0.1, 0.2, 0.3, 0.9]]) # 猫 的 预测 概率 


在 图 像 上 打印 预测 边界 框 和 它们 的 置信 和 度 〈 为 见 彩 插图 13). 


In [12]: fig = d2l.plt.imshow(img) 
show_bboxes(fig.axes, anchors * bbox_scale, 
['dog=0.9', 'dog=0.8', 'dog=0.7', 'cat=0.9']) 
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我 们 使 用 contrib.nd 模块 的 Multi BoxDetection pk BRKT ER A (BM ill FF A 
0.5. RBA NDArray 输入 都 增加 了 样本 维 。 我 们 看 到 ， 返 回 的 结果 的 形状 为 (批量 大 小 , 销 框 
个 数 , 6)。 其 中 每 一 行 的 6 个 元 素 代表 同一 个 预测 边界 框 的 输出 信息 。 第 一 个 元 素 是 索引 从 0 
开始 计数 的 预测 类 别 (0 为 狗 ，1 为 猫 )， 其 中 -1 表示 背景 或 在 非 极 大 值 抑制 中 被 移 除 。 第 二 
个 元 素 是 预测 边界 框 的 置信 度 。 剩 余 的 4 个 元 素 分 别 是 预测 边界 框 左上 和 角 的 x 和 yy 轴 坐 标 以 及 
A FARI xA y 轴 坐 标 〈 值 域 在 0 到 1 之 间 )。 


In [13]: output = contrib.ndarray.MultiBoxDetection( 
cls_probs.expand_dims(axis=0), offset_preds.expand_dims(axis=0) , 
anchors.expand_dims(axis=0), nms_threshold=0.5) 


output 
Out[13]: 
EE 0.9 6.1 0.08 0.52 0.92] 
ee 0.9 0:55 0.2 0.9 0:88] 
[ws 0.8 0.08 0.2 0.56 0.95] 
ES 0.7 0.45 0.3 0.62 0.91]]] 


<NDArray 1x4x6 @cpu(0) > 


我 们 移 除 掉 类 别 为 -1 的 预测 边界 框 ， 并 可 视 化 非 极 大 值 抑制 保留 的 结果 (为 见 彩 插图 14). 


In [14]: fig = d2l.plt.imshow(img) 
for i in output[0].asnumpy(): 
if if0] == -1: 
continue 
label = ('dog=', 'cat=')[int(i[0])] + str(i[1]) 
show_bboxes(fig.axes, [nd.array(i[2:]) * bbox_scale], label) 
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实践 中 ， 我 们 可 以 在 执行 非 极 大 值 抑 制 前 将 置信 和 度 较 低 的 预测 边界 框 移 除 ， 从 而 减 小 非 极 
大 值 抑制 的 计算 量 。 我 们 还 可 以 筛选 非 极 大 值 抑制 的 输出 ， 例 如， 只 保留 其 中 置信 和 度 较 高 的 结 
果 作为 最 终 输 出 。 


小 结 
© 以 每 个 像素 为 中 心 ， 生 成 多 个 大 小 和 宽 高 比 不 同 的 锚 框 。 
© 交 并 比 是 两 个 边界 框 相交 面积 与 相 并 面积 之 比 。 
© 在 训练 集中 ， 为 每 个 锚 框 标 注 两 类 标签 : 一 是 锚 框 所 含 目 标的 类 别 ; 二 是 真实 边界 框 相对 锚 
框 的 偏 移 量 。 
© 预测 时 ， 可 以 使 用 非 极 大 值 抑制 来 移 除 相似 的 预测 边界 框 ， 从 而 令 结果 简洁 。 


练习 

(1) 改变 MultiBoxPrior 函数 中 sizes 和 ratios 的 取 值 ， 观 察 生成 的 锚 框 的 变化 。 

(2) 构造 交 并 比 为 0.5 的 两 个 边界 框 ， 观 察 它们 的 重合 度 。 

(3) 按 本 节 定 义 的 为 锚 框 标注 偏 移 量 的 方法 (常数 采用 默认 值 )， 验 证 偏 移 量 LabeLs[0] 的 输 
出 结果 。 

(4) 修改 9.4.3 节 与 9.4.4 节 中 的 变量 anchors， 结 果 有 什么 变化 ? 
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在 9.4 节 中 ， 我 们 在 实验 中 以 输入 图 像 的 每 个 像素 为 中 心 生 成 多 个 锚 
框 。 这 些 销 框 是 对 输入 图 像 不 同 区 域 的 采样 。 然 而 ， 如 果 以 图 像 每 个 像素 
为 中 心 都 生成 销 框 ， 很 容易 生成 过 多 销 框 而 造成 计算 量 过 大 。 举 个 例子 ， 
假设 输入 图 像 的 高 和 宽 分 别 为 561 像素 和 728 像素 ， 如 果 以 每 个 像素 为 中 
LER S 个 不 同形 状 的 锚 框 ， 那 么 一 张 图 像 上 则 需要 标注 并 预测 200 多 
万 个 销 框 (561x 728x 5). 
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减少 锚 框 个 数 并 不 难 。 一 种 简单 的 方法 是 在 输入 图 像 中 均匀 采样 一 小 部 分 像素 ， 并 以 采样 
的 像素 为 中 心 生成 销 框 。 此 外 ， 在 不 同 尺度 下 ， 我 们 可 以 生成 不 同 数 量 和 不 同 大 小 的 销 框 。 值 
得 注意 的 是 ， 较 小 目标 比较 大 目标 在 图 像 上 出 现 位 置 的 可 能 性 更 多 。 举 个 简单 的 例子 : 形状 为 
1xl、1x2 和 2x2 的 目标 在 形状 为 2x2 的 图 像 上 可 能 出 现 的 位 置 分 别 有 4、2 和 1 种 。 因 此 ， 当 
使 用 较 小 锚 框 来 检测 较 小 目标 时 ， 我 们 可 以 采样 较 多 的 区 域 ， 而 当 使 用 较 大 销 框 来 检测 较 大 目 
标 时 ， 我 们 可 以 采样 较 少 的 区 域 。 


为 了 演示 如 何 多 尺度 生成 销 框 ， 我 们 先 读 取 一 张 图 像 。 它 的 高 和 宽 分 别 为 561 像素 和 728 
像素 。 
In [1]: %matplotlib inline 


import d2Lzh as d2l 
from mxnet import contrib, image, nd 


img = image.imread('../img/catdog.jpg') 
h, w = img.shape[0:2] 
h, w 


Out[1]: (561, 728) 


我 们 在 5.1 节 中 将 卷 积 神经 网 络 的 二 维 数组 输出 称 为 特征 图 。 我 们 可 以 通过 定义 特征 图 的 
形状 来 确定 任 一 图 像 上 均 义 采样 的 锚 框 中 心 。 


下 面 定 义 display_anchors 函数 。 我 们 在 特征 图 fmap 上 以 每 个 单元 〈 像 素 ) 为 中 心 生 
成 锁 框 anchors。 由 于 销 框 anchors 中 x 和 yy 轴 的 坐标 值 分 别 已 除 以 特征 图 fmap 的 宽 和 高 ， 
这 些 值 域 在 0 和 1 之 间 的 值 表达 了 锚 框 在 特征 图 中 的 相对 位 置 。 由 于 锚 框 anchors 的 中 心 遍 
布 特征 图 fmap 上 的 所 有 单元 ，anchors 的 中 心 在 任 一 图 像 的 空间 相对 位 置 一 定 是 均匀 分 布 的 。 
具体 来 说 ， 当 特征 图 的 宽 和 高 分 别 设 为 fmap_w 和 fmap_h 时 ， 该 函数 将 在 任 一 图 像 上 均匀 采 
样 fmap_h 行 fmap_w 列 个 像素 ， 并 分 别 以 它们 为 中 心 生 成 大 小 为 s《〈 假 设 列表 s 长 度 为 1) 的 
不 同 宽 高 比 Cratios) 的 锚 框 。 


In [2]: d2l.set_figsize() 


def display_anchors(fmap_w, fmap_h, s): 
fmap = nd.zeros((1, 10, fmap_w, fmap_h)) # 前 两 维 的 取 值 不 影响 输出 结果 
anchors = contrib.nd.MultiBoxPrior(fmap, sizes=s, ratios=[1, 2, 0.5]) 
bbox_scale = nd.array((w, h, w, h)). 
d21l.show_bboxes(d21l.plt.imshow(img.asnumpy()).axes, 
anchors[0] * bbox_scale) 


我 们 先 关 注 小 目标 的 检测 。 为 了 在 显示 时 更 容易 分 辨 ， 这 里 令 不 同 中心 的 锚 框 不 重合 : 
设 锚 框 大 小 为 0.15， 特 征 图 的 高 和 宽 分 别 为 4。 可 以 看 出 ， 图 像 上 4 行 4 列 的 锚 框 中 心 分 布 
SS) (LRA 15). 


In [3]: display_anchors(fmap_w=4, fmap_h=4, s=[0.15]) 
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我 们 将 特征 图 的 高 和 宽 分 别 减 半 ， 并 用 更 大 的 锚 框 检测 更 大 的 目标 。 当 锚 框 大 小 设 0.4 
时 ， 有 些 销 框 的 区 域 有 重合 〈 男 见 彩 插 图 16). 


In [4]: display_anchors(fmap_w=2, fmap_h=2, s=[0.4]) 
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最 后 ， 我 们 将 特征 图 的 高 和 宽 进 一 步 减 半 至 1， 并 将 锚 框 大 小 增 至 0.8。 此 时 锚 框 中 心 即 
图 像 中 心 ( 男 见 彩 插图 17)。 


In [5]: display_anchors(fmap_w=1, fmap_h=1, s=[0.8]) 





AROS TRE EAM SAAD AY HAE, ABDI, BOAT he BEE AR RE FENA 
同 大 小 的 目标 。 下 面 我 们 来 介绍 一 种 基于 卷 积 神经 网 络 的 方法 。 


企 攻 个 尺度 下 ， 假 设 我 们 依据 c 张 形状 为 hxw 的 特征 图 生成 hxw 组 不 同 中心 的 销 框 ， 且 
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每 组 的 锁 框 个 数 为 &。 例 如 ， 在 刚才 实验 的 第 一 个 尺度 下 ， 我 们 依据 10〈 通 道 数 ) 张 形状 为 
4x4 的 特征 图 生成 了 16 组 不 同 中 心 的 锁 框 ， 且 每 组 含 3 个 锁 框 。 接 下 来 ， 依 据 真实 边界 框 的 
类 别 和 位 置 ， 每 个 销 框 将 被 标注 类 别 和 偏 移 量 。 在 当前 的 尺度 下 ， 目 标 检测 模型 需要 根据 输入 
图 像 预 测 hxw 组 不 同 中 心 的 销 框 的 类 别 和 偏 移 量 。 


假设 这 里 的 6; 张 特征 图 为 卷 积 神经 网 络 根据 输入 图 像 做 前 癌 计 算 所 得 的 中 间 输 出 。 既 然 每 
KEMER ERA hxw 个 不 同 的 空间 位 置 ， 那 么 相同 空间 位 置 可 以 看 作 含 有 c 个 单元 。 根 据 5.1 
节 中 感受 野 的 定义 ， 特 征 图 在 相同 空间 位 置 的 6; 个 单元 在 输入 图 像 上 的 感受 野 相同 ， 并 表征 了 
同一 感受 野 内 的 输入 图 像 信 息 。 因 此 ， 我 们 可 以 将 特征 图 在 相同 空间 位 置 的 c 个 单元 变换 为 以 
该 位 置 为 中 心 生 成 的 a 个 锚 框 的 类 别 和 偏 移 量 。 不 难 发 现 ， 本 质 上 ， 我 们 用 输入 图 像 在 某 个 感 
受 野 区 域内 的 信息 来 预测 输入 图 像 上 与 该 区 域 位 置 相 近 的 锁 框 的 类 别 和 偏 移 量 。 


当 不 同 层 的 特征 图 在 输入 图 像 上 分 别 拥 有 不 同 大 小 的 感受 野 时 ， 它 们 将 分 别 用 来 检测 不 同 
大 小 的 目标 。 例 如 ， 我 们 可 以 通过 设计 网 络 ， 令 较 接近 输出 层 的 特征 图 中 每 个 单元 拥有 更 广阔 
的 感受 野 ， 从 而 检测 输入 图 像 中 更 大 尺寸 的 目标 。 


我 们 将 在 9.7 节 具 体 实现 一 个 多 尺度 目标 检测 的 模型 。 


可 以 在 多 个 尺度 下 生成 不 同 数量 和 不 同 大 小 的 锚 框 ， 从 而 在 多 个 尺度 下 检测 不 同 大 小 的 目标 。 
特征 图 的 形状 能 确定 任 一 图 像 上 均匀 采样 的 锚 框 中 心 。 

用 输入 图 像 在 某 个 感受 野 区 域内 的 信息 来 预测 输入 图 像 上 与 该 区 域 相近 的 锚 框 的 类 别 和 偏 
移 量 。 


练习 
给 定 一 张 输 入 图 像 ， 设 特征 图 变量 的 形状 为 1xci xpxw， 其 中 ci hew 分别 为 特征 图 的 个 数 、 
高 和 宽 。 你 能 想到 哪些 将 该 变量 变换 为 锚 框 的 类 别 和 偏 移 量 的 方法 ? 输出 的 形状 分 别 是 什么 ? 





9.6 目标 检测 数据 集 ( 皮卡 丘 ) 


在 目标 检测 领域 并 没有 类 似 MNIST 或 Fashion-MNIST 那样 的 小 数据 
集 。 为 了 快速 测试 模型 ， 我 们 合成 了 一 个 小 的 数据 集 。 我 们 首先 使 用 一 个 
开源 的 皮卡 丘 3D 模型 生成 了 1 000 张 不 同 角 度 和 大 小 的 皮卡 丘 图 像 。 然 
后 我 们 收集 了 一 系列 背景 图 像 ， 并 在 每 张 图 的 随机 位 置 放置 一 张 随 机 的 皮 Li 
卡 丘 图 像 。 我 们 使 用 MXNet 提供 的 im2rec 工具 将 图 像 转 换 成 二 进 制 的 RecordIO 格式 。 该 格 
式 既 可 以 降低 数据 集 在 磁盘 上 的 存储 开销 ， 又 能 提高 读 取 效率 。 如 果 想 了 解 更 多 的 图 像 读 取 方 
法 ， 可 以 查阅 GluonCV LAM. © 





由 GluonCV 工 具 包 参见 https://gluon-cv.mxnet.io/。 
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9.6.1 获取 数据 集 
RecordIO 格式 的 皮卡 丘 数 据 集 可 以 直接 在 网 上 下 载 。 获 取 数 据 集 的 操作 定义 在 _download_ 


pikachu 函数 中 。 


In [1]: 


%matplotlib inline 

import d2lzh as d21 

from mxnet import gluon, image 

from mxnet.gluon import utils as gutils 
import os 


def _download_pikachu(data_dir): 
root_url = ('https://apache-mxnet.s3-accelerate.amazonaws.com/' 


'gluon/dataset/pikachu/ ') 


dataset = {'train.rec': 'e6bcb6ffbalacO4ff8a9b1115e650af56ee969c8' , 


'train.idx': 'dcf7318b2602c06428b9988470c731621716c393', 
'val.rec': 'd6c33f799b4d058e82 f2cb5bd9a976f69d72d520' } 


for k, v in dataset.items(): 


gutils.download(root_url + k, os.path.join(data_dir, k), shal_hash=v) 


9.6.2 ” 读 取 数据 集 


我 们 通过 创建 ImageDetIter 实例 来 读 取 目 标 检测 数据 集 。 其 中 名 称 里 的 “Det” 指 的 是 
Detection (检测 )。 我 们 将 以 随机 顺序 读 取 训练 数据 集 。 由 于 数据 集 的 格式 为 RecordIO， 我 们 
需要 提供 图 像 索 引文 件 train.idx 以 随机 读 取 小 批量 。 此 外 ， 对 于 训练 集中 的 每 张 图 像 ， 我 们 将 
采用 随机 裁剪 ， 并 要 求 裁剪 出 的 图 像 至 少 履 盖 每 个 目标 95% 的 区 域 。 由 于 裁 前 是 随机 的 ， 这 
个 要 求 不 一 定 总 被 满足 。 我 们 设 定 最 多 尝试 200 次 随机 裁 前 : 如 果 都 不 符合 要 求 则 不 裁剪 图 
像 。 为 保证 输出 结果 的 确定 性 ， 我 们 不 随机 裁剪 测试 数据 集中 的 图 像 。 我 们 也 无 须 按 随机 顺序 


读 取 测试 数据 集 。 


In [2]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def load_data_pikachu(batch_size, edge_size=256): # edge_size: 输出 图 像 的 宽 和 高 
data_dir = '../data/pikachu' 
_downLload_pikachu(data_dir) 
train_iter = image. ImageDetIter ( 


path_imgrec=os.path.join(data_dir, 'train.rec'), 
path_imgidx=os.path.join(data_dir, 'train.idx'), 
batch_size=batch_size, 

data_shape=(3, edge_size, edge_size), # 输出 图 像 的 形状 
shuffle=True, # 以 随机 顺序 读 取 数据 集 

rand_crop=1, # 随机 裁剪 的 概率 为 1 


min_object_covered=0.95, max_attempts=200) 


val_iter = image. ImageDetIter ( 


path_imgrec=os.path.join(data_dir, 'val.rec'), batch_size=batch_size, 
data_shape=(3, edge_size, edge_size), shuffle=False) 


return train_iter, val_iter 


下 面 我 们 读 取 一 个 小 批量 并 打印 图 像 和 标签 的 形状 。 图 像 的 形状 和 之 前 实验 中 的 一 样 ， 依 
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然 是 (批量 大 小 , 通道 数 , 高 , 宽 )。 而 标签 的 形状 则 是 (批量 大 小 , m, 5)， 其 中 m 等 于 数据 集中 
单个 图 像 最 多 含有 的 边界 框 个 数 。 小 批量 计算 虽然 高 效 ， 但 它 要求 每 张 图 像 含有 相同 数量 的 这 
界 框 ， 以 便 放 在 同一 个 批量 中 。 由 于 每 张 图 像 含有 的 边界 框 个 数 可 能 不 同 ， 我 们 为 边界 框 个 数 
小 于 m 的 图 像 填 充 非 法 边界 杠 ， 直 到 每 张 图 像 均 含有 m 个 边界 框 。 这 样 ， 我 们 就 可 以 每 次 读 
取 小 批量 的 图 像 了 。 图 像 中 每 个 边界 框 的 标签 由 长 度 为 5 的 数组 表示 。 数 组 中 第 一 个 元 系 是 边 
界 框 所 含 目标 的 类 别 。 当 值 为 -1 时 ， 该 边界 框 为 填充 用 的 非法 边界 框 。 数 组 的 剩余 4 个 元 系 
分 别 表示 边界 框 左上 和 角 的 x 和 yy 轴 坐 标 以 及 右 下 角 的 x 和 y 轴 坐标 〈 值 域 在 0 到 1 之 间 )。 这 
里 的 皮卡 丘 数 据 集中 每 个 图 像 只 有 一 个 边界 框 ， 因 此 六 =1。 
In [3]: batch_size，edge_size = 32, 256 
train_iter, _ = load_data_pikachu(batch_size, edge_size) 


batch = train_iter.next() 
batch.data[0].shape, batch. label[0].shape 


Out[3]: ((32, 3, 256, 256), (32, 1, 5)) 


9.6.3 ”图 示 数 据 


我 们 画 出 10 张 图 像 和 它们 中 的 边界 框 。 可 以 看 到 ， 上 反 卡 丘 的 角度 、 大 小 和 位 置 在 每 张 图 
像 中 都 不 一 样 。 当 然 ， 这 是 一 个 简单 的 人 工 数 据 集 。 实 际 中 的 数据 通常 会 复杂 得 多 。 


In [4]: imgs = (batch.data[0][0:10].transpose((0, 2, 3, 1))) / 255 
axes = d2l.show_images(imgs, 2, 5).flatten() 
for ax, label in zip(axes, batch. label[0][0:10]): 
d21l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w']) 


合成 的 皮卡 丘 数 据 集 可 用 于 测试 目标 检测 模型 。 
目 标 检 测 的 数据 读 取 与 图 像 分 类 的 类 似 。 然 而 ， 在 引入 边界 框 后 ， 标 签 形 状 和 图 像 增 广 (如 
随机 载 剪 ) 发 生 了 变化 。 
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练习 


查阅 MXNet 文档 ，image.ImageDetIter 和 image.CreateDetAugmenter 这 两 个 类 的 构 
造 函 数 有 哪些 参数 ? 它们 的 意义 是 什么 ? 








9.7 单 发 多 框 检测 (SSD) 


RITE 9.3 节 至 9.6 节 分 别 介绍 了 边界 框 、 锚 框 、 多 尺度 目标 检测 和 数 OF = 
据 集 ， 下 面 我 们 基于 这 些 背景 知识 来 构造 一 个 目标 检测 模型 一 一 单 发 多 框 
检测 (single shot multibox detection, SSD) 中 。 它 简单 、 快 速 ， 并 得 到 了 ; 
广泛 应 用 。 该 模型 的 一 些 设计 思想 和 实现 细节 常 适用 于 其 他 目标 检测 模型 。 [m] 






9.7.1 定义 模型 


图 9-4 描述 了 单 发 多 框 检测 模型 的 设计 。 它 主要 由 一 个 基础 网 络 块 和 若干 个 多 尺度 特征 块 
串联 而 成 。 其 中 基础 网 络 块 用 来 从 原始 图 像 中 抽取 特征 ， 因 此 一 般 会 选择 常用 的 深度 卷 积 神经 
网 络 。 单 发 多 框 检测 论文 中 选用 了 在 分 类 层 之 前 截断 的 VGG™”， 现 在 也 常用 ResNet 替代 。 我 们 
可 以 设计 基础 网 络 ， 使 它 输出 的 高 和 宽 较 大 。 这 样 一 来 ， 基 于 该 特征 图 生成 的 销 框 数量 较 多 ， 
可 以 用 来 检测 尺寸 较 小 的 目标 。 接 下 来 的 每 个 多 尺度 特征 块 将 上 一 层 提供 的 特征 图 的 高 和 宽 缩 
小 (如 减 半 )， 并 使 特征 图 中 每 个 单元 在 输入 图 像 上 的 感受 野 变 得 更 广阔 。 如 此 一 来 ， 图 9-4 中 
越 靠 近 顶 部 的 多 尺度 特征 块 输出 的 特征 图 越 小 ， 故 而 基于 特征 图 生成 的 锚 框 也 越 少 ， 加 之 特征 
图 中 每 个 单元 感受 野 越 大 ， 因 此 更 适合 检测 尺寸 较 大 的 目标 。 由 于 单 发 多 框 检 测 基于 基础 网 络 
块 和 各 个 多 尺度 特征 块 生成 不 同 数量 和 不 同 大 小 的 销 框 ， 并 通过 预测 锚 框 的 类 别 和 偏 移 量 〈 即 
预测 边界 框 ) 检测 不 同 大 小 的 目标 ， 因 此 单 发 多 框 检 测 是 一 个 多 尺度 的 目标 检测 模型 。 





图 9-4 单 发 多 框 检测 模型 主要 由 一 个 基础 网 络 块 和 才干 多 斥 度 特征 块 串联 而 成 
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接 下 来 我 们 介绍 如 何 实 现 图 中 的 各 个 模块 。 我 们 先 介绍 如 何 实现 类 别 预测 和 边界 框 预 测 。 


1. 类 别 预测 层 


设 目标 的 类 别 个 数 为 49。 每 个 锚 框 的 类 别 个 数 将 是 9+1， 其 中 类 别 0 表示 销 框 只 包含 背景 。 
在 某 个 尺度 下 ， 设 特征 图 的 高 和 宽 分 别 为 h 和 w， 如 果 以 其 中 每 个 单元 为 中 心 生 成 a 个 销 框 ， 
那么 我 们 需要 对 hwa 个 销 框 进行 分 类 。 如 果 使 用 全 连接 层 作 为 输出 ， 很 容易 导致 模型 参数 过 
多 。 回 忆 5.8 节 介 绍 的 使 用 卷 积 层 的 通道 来 输出 类 别 预 测 的 方法 。 单 发 多 框 检 测 采 用 同样 的 方 
法 来 降低 模型 复杂 度 。 


具体 来 说 ， 类 别 预 测 层 使 用 一 个 保持 输入 高 和 宽 的 卷 积 层 。 这 样 一 来 ， 输 出 和 输入 在 特征 
图 宽 和 高 上 的 空间 坐标 一 一 对 应 。 考 虑 输出 和 输入 同一 空间 坐标 (x, y): 输出 特征 图 上 (x, y) 
坐标 的 通道 里 包含 了 以 输入 特征 图 (x, y) 坐标 为 中 心 生 成 的 所 有 销 框 的 类 别 预 测 。 因 此 输出 通 
道 数 为 a(g+1)， 其 中 索引 为 iq+)+/O<j<q) 的 通道 代表 了 索引 为 i 的 销 框 有 关 类 别 索 
引 为 j 的 预测 。 
下 面 我 们 定义 一 个 这 样 的 类 别 预测 层 ， 指 定 参 数 a 和 g 后 ， 它 使 用 一 个 填充 为 1 3x3 E 
积 层 。 该 卷 积 层 的 输入 和 输出 的 高 和 宽 保 持 不 变 。 
In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet import autograd, contrib, gluon, image, init, nd 


from mxnet.gluon import loss as gloss, nn 
import time 


def cls_predictor(num_anchors, num_classes): 
return nn.Conv2D(num_anchors * (num_classes + 1), kernel_size=3, 
padding=1) 


2. 边界 框 预测 层 
边界 框 预测 层 的 设计 与 类 别 预测 层 的 设计 类 似 。 唯 一 不 同 的 是 ， 这 里 需要 为 每 个 锚 框 预测 
4 ito HE, MANZE 9+1 个 类 别 。 


In [2]: def bbox_predictor(num_anchors ) : 
return nn.Conv2D(num_anchors * 4, kernel_size=3, padding=1) 


3. 连结 多 尺度 的 预测 


前 面 提 到 ， 单 发 多 框 检测 根据 多 个 尺度 下 的 特征 图 生成 销 框 并 预测 类 别 和 偏 移 量 。 由 于 每 
个 尺度 上 特征 图 的 形状 或 以 同一 单元 为 中 心 生成 的 锚 框 个 数 都 可 能 不 同 ， 因 此 不 同 尺度 的 预测 
输出 形状 可 能 不 同 。 


在 下 面 的 例子 中 ， 我 们 对 同一 批量 数据 构造 两 个 不 同 尺度 下 的 特征 图 Yl 和 Y2， 其 中 Y2 相 
对 于 Y1 来 说 高 和 宽 分 别 减 半 。 以 类 别 预 测 为 例 ， 假 设 以 Yl 和 Y2 特征 图 中 每 个 单元 生成 的 销 
框 个 数 分 别 是 5 和 3， 当 目标 类 别 个 数 为 10 时 ， 类 别 预 测 输 出 的 通道 数 分 别 为 5x(10+1) = 55 
和 3x(10+ 了 DD) = 33。 预 测 输 出 的 格式 为 (批量 大 小 , HEL, 高 , 宽 )。 可 以 看 到 ， 除 了 批量 大 小 
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外 ， 其 他 维度 大 小 均 不 一 样 。 我 们 需要 将 它们 变形 成 统一 的 格式 并 将 多 尺度 的 预测 连结 ， 从 而 
让 后 续 计 算 更 简单 。 
In [3]: def forward(x, block): 


block.initialize() 
return block(x) 


Yl = forward(nd.zeros((2, 8, 20, 20)), cls_predictor(5, 10)) 
Y2 = forward(nd.zeros((2, 16, 10, 10)), cls_predictor(3, 10)) 
(Yl.shape, Y2.shape) 


Out[3]: ((2, 55, 20, 20), (2, 33, 10, 10)) 


HEEE S P AT) DE YP AR RITE RRE ER IR E TA AN TAIN 
度 下 批量 大 小 仍 保持 不 变 ， 我 们 可 以 将 预测 结果 转 成 二 维 的 ( 批量 大 小 , 高 x 宽 x 通 道 数 ) 的 格 
式 ， 以 方便 之 后 在 维度 1 上 的 连结 。 


In [4]: def flatten_pred(pred): 
return pred.transpose((0, 2, 3, 1)).flatten() 


def concat_preds(preds): 
return nd.concat(*[flatten_pred(p) for p in preds], dim=1) 


这 样 一 来 ， 尽 管 YL 和 2 形状 不 同 ， 我 们 仍然 可 以 将 这 两 个 同一 批量 不 同 尺度 的 预测 结 
果 连 结 在 一 起 。 


In [5]: concat_preds([Y1, Y2]).shape 


Out[5]: (2, 25300) 


4. 高 和 宽 减 半 块 


为 了 在 多 尺度 检测 目标 ， 下 面 定义 高 和 宽 减 半 块 down_sample_blk。 它 串联 了 两 个 填充 
为 1 的 3x3 卷 积 层 和 步 幅 为 2 的 2x2 最 大 池 化 层 。 我 们 知道 ， 填 充 为 1 的 3x3 卷 积 层 不 改变 
特征 图 的 形状 ， 而 后 面 的 池 化 层 则 直接 将 特征 图 的 高 和 宽 减 半 。 由 于 1x 2+(3-1)+(3-1) =6, 
输出 特征 图 中 每 个 单元 在 输入 特征 图 上 的 感受 时 形状 为 6x6。 可 以 看 出 ， 高 和 宽 减 半 块 使 输出 
特征 图 中 每 个 单元 的 感受 野 变 得 更 广阔 。 


In [6]: def down_sample_blk(num_channels) : 
blk = nn.Sequential() 
for _ in range(2): 
blk.add(nn.Conv2D(num_channels, kernel_size=3, padding=1), 

nn.BatchNorm(in_channels=num_channels) , 
nn.Activation('relu')) 

blk.add(nn.MaxPool2D(2) ) 

return blk 


测试 高 和 宽 减 半 块 的 前 向 计算 。 可 以 看 到 ， 它 改变 了 输入 的 通道 数 ， 并 将 高 和 宽 减 半 。 


。274。 第 9 章 计算 机 视觉 


In [7]: forward(nd.zeros((2, 3, 20, 20)), down_sample_blk(10)).shape 


Out[7]: (2, 10, 10, 10) 


5. 基础 网 络 块 


基础 网 络 块 用 来 从 原始 图 像 中 抽取 特征 。 为 了 计算 简洁 ， 我 们 在 这 里 构造 一 个 小 的 基础 
网 络 。 该 网 络 串 联 3 个 高 和 宽 减 半 块 ， 并 逐步 将 通道 数 翻 倍 。 当 输入 的 原始 图 像 的 形状 为 
256x256 时 ， 基 础 网 络 块 输出 的 特征 图 的 形状 为 32x32。 
In [8]: def base_net(): 
blk = nn.Sequential() 
for num_filters in [16, 32, 64]: 


blk.add(down_sample_bLk(num_filters) ) 
return blk 


forward(nd.zeros((2, 3, 256, 256)), base_net()).shape 


Out[8]: (2, 64, 32, 32) 


6. 完整 的 模型 


单 发 多 框 检测 模型 一 共 包含 $ 个 模块 ， 每 个 模块 输出 的 特征 图 既 用 来 生成 销 框 ， 又 用 来 预测 
这 些 销 框 的 类 别 和 偏 移 量 。 第 一 模块 为 基础 网 络 块 ， 第 二 模块 至 第 四 模块 为 高 和 宽 减 半 块 ， 第 五 
模块 使 用 全 局 最 大 池 化 层 将 高 和 宽 降 到 1。 因此 第 二 模块 至 第 五 模块 均 为 图 9-4 中 的 多 尺度 特征 块 。 
In [9]: def get_blk(i): 
if i == 0: 
base_net() 


elif i == 4: 

blk = nn.GlobalMaxPool2D() 
else: 

blk = down_sample_blk(128) 
return blk 


接 下 来 ， 我 们 定义 每 个 模块 如 何 进行 前 向 计算 。 与 之 前 介绍 的 卷 积 神经 网 络 不 同 ， 这 里 不 
仅 返 回 卷 积 计算 输出 的 特征 图 Y， 还 返回 根据 Y 生成 的 当前 尺度 的 锚 框 ， 以 及 基于 Y 预测 的 销 
HER Fill A AS Eo 
In [10]: def blk_forward(X, blk, size, ratio, cls_predictor, bbox_predictor): 
Y = blk(X) 
anchors = contrib.ndarray.MultiBoxPrior(Y, sizes=size, ratios=ratio) 
cls_preds = cls_predictor(Y) 
bbox_preds = bbox_predictor(Y) 
return (Y, anchors, cls_preds, bbox_preds) 


我 们 提 到 ， 图 9-4 中 较 靠 近 顶 部 的 多 尺度 特征 块 用 来 检测 尺寸 较 大 的 目标 ， 因 此 需要 生成 
较 大 的 锚 框 。 我 们 在 这 里 先 将 0.2 到 1.05 之 间 均 分 5 份 ， 以 确定 不 同 尺度 下 销 框 大 小 的 较 小 值 
0.2、0.37、0.54 等 ， 再 按 V0.2x0.37 =0.272. J0.37x0.54 = 0.447 等 来 确定 不 同 尺度 下 销 框 大 
小 的 较 大 值 。 
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In [11]: sizes = [[0.2, 0.272], [0.37, 0.447], [0.54, 0.619], [0.71, 0.79], 
[0.88, 0.961]] 
ratios =~[[1, .2,..0.5]]-*.-5 
num_anchors = len(sizes[0]) + len(ratios[0]) - 1 


现在 ， 我 们 就 可 以 定义 出 完整 的 模型 TinySSD 了 。 


In [12]: class TinySSD(nn.Block): 
def __init__(self, num_classes, **xkwargs): 
super(TinySSD, self).__init__(**kwargs) 
self.num_classes = num_classes 
for i in range(5): 
# _ 即 赋值 语句 seLf.bLk_i = get_blk(i) 
setattr (self, 'blk_%d’ % i, get_blk(i)) 
setattr (self, 'cls_%d’ % i, cls_predictor(num_anchors, 
num_classes) ) 
setattr(self, 'bbox_%d' % i, bbox_predictor(num_anchors) ) 


def forward(self, X): 
anchors, cls_preds, bbox_preds = [None] * 5, [None] * 5, [None] * 5 
for i in range(5): 
# getattr(self, 'blk_%d' % i) 即 访问 self.blk_i 
X, anchors[i],.cls_preds[i], bbox_preds[i] = blk_forward( 
X, getattr(self, 'blk_%d' % i), sizes[i], ratios[i], 
getattr (self, 'cls_%d' % i), getattr(self, 'bbox_%d' % i)) 
# reshape 函 数 中 的 0 表示 保持 批量 大 小 不 变 
return (nd.concat(*anchors, dim=1), 
concat_preds(cls_preds) .reshape( 
(0, -1, self.num_classes + 1)), concat_preds(bbox_preds) ) 


我 们 创建 单 发 多 框 检测 模型 实例 并 对 一 个 高 和 宽 均 为 256 像素 的 小 批量 图 像 x 做 前 向 计 
算 。 我 们 在 之 前 验证 过 ， 第 一 模块 输出 的 特征 图 的 形状 为 32x32。 由 于 第 二 至 第 四 模块 为 高 和 
宽 减 半 块 、 第 五 模块 为 全 局 池 化 层 ， 并 且 以 特征 图 每 个 单元 为 中 心 生 成 4 个 锚 框 ， 每 个 图 像 在 
5 个 尺度 下 生成 的 锚 框 总 数 为 (32 +167 +8 +42+Dx4= 5444. 
In [13]: net = TinySSD(num_classes=1) 
net. initialize() 


X = nd.zeros((32, 3, 256, 256)) 
anchors, cls_preds, bbox_preds = net(X) 


print('output anchors:', anchors.shape) 
print('output class preds:', cls_preds.shape) 
print('output bbox preds:', bbox_preds.shape) 


output anchors: (1, 5444, 4) 


output class preds: (32, 5444, 2) 
output bbox preds: (32, 21776) 


9.7.2 训练 模型 
下 面 我 们 拉 述 如 何 一 步 步 训练 单 发 多 框 检测 模型 来 进行 目标 检测 。 
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1. 读 取 数 据 集 和 初始 化 
我 们 读 取 9.6 节 构 造 的 皮卡 丘 数据 集 。 


In [14]: batch_size = 32 
train_iter, _ = d2l.load_data_pikachu(batch_size) 


在 皮卡 丘 数 据 集中 ， 目 标的 类 别 数 为 1。 定义 好 模型 以 后 ， 我 们 需要 初始 化 模型 参数 并 定 
义 优化 算法 。 
In [15]: ctx, net = d2l.try_gpu(), TinySSD(num_classes=1) 
net. initialize(init=init.Xavier(), ctx=ctx) 
trainer = gluon.Trainer(net.collect_params(), 'sgd', 
{'learning_rate': 0.2, 'wd': 5e-4}) 


2. 定义 损失 函数 和 评价 函数 


目标 检测 有 两 个 损失 :一 是 有 关 锁 框 类 别 的 损失 ， 我 们 可 以 重用 之 前 图 像 分 类 问题 里 一 直 
使 用 的 交叉 炉 损 失 函 数 ， 二 是 有 关 正 类 销 框 偏 移 量 的 损失 。 预 测 偏 移 量 是 一 个 回归 问题 ， 但 这 
里 不 使 用 3.1 节 介 绍 过 的 平方 损失 ， 而 使 用 工 范 数 损失 ， 即 预测 值 与 真实 值 之 间 差 的 绝对 值 。 
掩 码 变 量 bbox_masks 令 负 类 销 框 和 填充 销 框 不 参与 损失 的 计算 。 最 后 ， 我 们 将 有 关 销 框 类 别 
和 偏 移 量 的 损失 相 加 得 到 模型 的 最 终 损失 函数 。 


In [16]: cls_loss = gloss.SoftmaxCrossEntropyLoss() 
bbox_loss = gloss.LiLoss() 


def calc_loss(cls_preds, cls_labels, bbox_preds, bbox_labels, bbox_masks): 
cls = cls_loss(cls_preds, cls_labels) 
bbox = bbox_loss(bbox_preds * bbox_masks, bbox_labels * bbox_masks) 
return cls + bbox 


我 们 可 以 沿用 准确 率 评价 分 类 结果 。 因 为 使 用 了 五 范 数 损 失 ， 我 们 用 平均 绝对 误差 评价 
边界 框 的 预测 结果 。 
In [17]: def cls_eval(cls_preds, cls_labels): 
# 由 于 类 别 预测 结果 放 在 最 后 一 维 ，argmax 需 要 指定 最 后 一 维 
return (cls_preds.argmax(axis=-1) == cls_labels).sum().asscalar() 


def bbox_eval(bbox_preds, bbox_labels, bbox_masks): 
return ((bbox_labels - bbox_preds) * bbox_masks) .abs().sum().asscalar() 


3. 训练 模型 


在 训练 模型 时 ， 我 们 需要 在 模型 的 前 癌 计 算 过 程 中 生成 多 尺度 的 销 框 anchors， 并 为 每 个 
锚 框 预测 类 别 cls_preds 和 偏 移 量 bbox_preds。 之 后 ， 我 们 根据 标签 信息 Y 为 生成 的 每 个 锚 
框 标注 类 别 cls_labels 和 偏 移 量 bbox_LabeLs。 最 后 ， 我 们 根据 类 别 和 偏 移 量 的 预测 和 标注 
值 计 算 损 失 函 数 。 为 了 代码 简洁 ， 这 里 没有 评价 测试 数据 集 。 

In [18]: for epoch in range(20) : 

acc_sum, mae_sum, N, m = 0.0, 0.0, 0, 9 


train_iter.reset() # 从 头 读 取 数 据 


start = time.time() 
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for batch in train_iter: 
X = batch.data[0].as_in_context(ctx) 
Y = batch. label[0].as_in_context (ctx) 
with autograd.record(): 
# 生成 多 尺度 的 锚 框 ， 为 每 个 锚 框 预测 类 别 和 偏 移 量 
anchors, cls_preds, bbox_preds = net(X) 
# 为 每 个 锚 框 标注 类 别 和 偏 移 量 
bbox_labels, bbox_masks, cls_labels = contrib.nd.MultiBoxTarget( 
anchors, Y, cls_preds.transpose((0, 2, 1))) 
# 根据 类 别 和 偏 移 量 的 预测 和 标注 值 计 算 损 失范 数 
l = calc_loss(cls_preds, cls_labels, bbox_preds, bbox_labels, 
bbox_masks) 
L. backward ( ) 
trainer.step(batch_size) 
acc_sum += cls_eval(cls_preds, cls_labels) 
n += cls_labels.size 
mae_sum += bbox_eval(bbox_preds, bbox_labels, bbox_masks) 
m += bbox_labels.size 


if (epoch + 1) % 5 == 
print('epoch %2d, class err %.2e, bbox mae %.2e, time %.1f sec' % ( 
epoch + 1, 1 - acc_sum / n, mae_sum / m, time.time() - start)) 


epoch 5, class err 3.02e-03, bbox mae 3.27e-03, time 9.1 sec 
epoch 10, class err 2.63e-03, bbox mae 2.92e-03, time 9.1 sec 
epoch 15, class err 2.61le-03, bbox mae 2.70e-03, time 9.2 sec 
epoch 20, class err 2.37e-03, bbox mae 2.59e-03, time 9.0 sec 


9.7.3 预测 目标 


在 预测 阶段 ， 我 们 希望 能 把 图 像 里 面 所 有 我 们 感 兴趣 的 目标 检测 出 来 。 下 面 读 取 测 试图 
像 ， 将 其 变换 尺寸 ， 然 后 转 成 卷 积 层 需 要 的 四 维 格式 。 
In [19]: img = image.imread('../img/pikachu.jpg' ) 


feature = image.imresize(img, 256, 256).astype('float32') 
X = feature.transpose((2, 0, 1)).expand_dims(axis=0) 


我 们 通过 Multi BoxDetection 函数 根据 锚 框 及 其 预测 偏 移 量 得 到 预测 边界 框 ， 并 通过 非 
极 大 值 抑制 移 除 相似 的 预测 边界 框 。 
In [20]: def predict(X) : 
anchors, cls_preds, bbox_preds = net(X.as_in_context(ctx) ) 
cls_probs = cls_preds.softmax().transpose((0, 2, 1)) 
output = contrib.nd.MultiBoxDetection(cls_probs, bbox_preds, anchors) 


idx = [i for i, row in enumerate(output[0]) if row[0].asscalar() != -1] 
return output[0, idx] 


output = predict(X) 


最 后 ， 我 们 将 置信 度 不 低 于 0.3 的 边界 框 筛选 为 最 终 输 出 用 以 展示 。 
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In [21]: d2l.set_figsize((5, 5)) 


def display(img, output, threshold): 

fig = d2l.plt.imshow(img.asnumpy () ) 

for row in output: 
score = row[1].asscalar() 
if score < threshold: 

continue 

h, w = img.shape[0:2] 
bbox = [row[2:6] * nd.array((w, h, w, h), ctx=row.context) ] 
d21.show_bboxes(fig.axes, bbox, '%.2f' % score, 'w') 


display(img, output, threshold=0.3) 
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单 发 多 框 检测 是 一 个 多 尺度 的 目标 检测 模型 。 该 模型 基于 基础 网 络 块 和 各 个 多 尺度 特征 块 生 
成 不 同 数量 和 不 同 大 小 的 锚 框 ， 并 通过 预测 锚 框 的 类 别 和 偏 移 量 检测 不 同 大 小 的 目标 。 
单 发 多 框 检测 在 训练 中 根据 类 别 和 偏 移 量 的 预测 和 标注 值 计 算 损 失 函 数 。 


限于 篇 幅 ， 实 验 中 忽略 了 单 发 多 框 检测 的 一 些 实现 细节 。 你 能 从 以 下 几 个 方面 进一步 改进 模 
型 吗 ? 
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1. 损失 函数 
将 预测 偏 移 量 用 到 的 Ly 范 数 损失 替换 为 平滑 万 范 数 损失 。 它 在 零点 附近 使 用 平方 函数 从 而 更 加 
平滑 ， 这 是 通过 一 个 超 参 数 0 来 控制 平滑 区 域 的 : 


(ox)*/2, HR |x| < 1/07 


f (x)= 
|x| -0.5/o*， 否则 
当 cc 很 大 时 该 损失 类 似 于 万 范 数 损失 。 当 它 较 小 时 ， 损 失 函 数 较 平滑 。 
In [22]: sigmas = [10, 1, 0.5] 
Lines 一 Era bbs cet amt] 
x = nd.arange(-2, 2, 0.1) 
d21l.set_figsize() 


for 1, s in zip(lines, sigmas): 

y = nd.smooth_1l1(x, scalar=s) 

d21l.plt.plot(x.asnumpy(), y.asnumpy(), l, lLabel='sigma=%.1f' % s) 
d21l.plt. lLegend() ; 


— sigma=10.0 
一 一 ~ sigma=1.0 
一 "~ sigma=0.5 





—2 -1 0 1 2 
ERAMAN, FEPRATRAMMA: RAEAA[HRMMFERYP;, ALRK A 
-log pj。 我 们 还 可 以 使 用 焦点 损失 (focal loss)": 给 定 正 的 超 参 数 y 和 a， 该 损失 的 定义 为 
—a(1— pj;) log p; 


可 以 看 到 ， 增 大 7》 可 以 有 效 减 小 正 类 预测 概率 较 大 时 的 损失 。 


In [23]: def focal_loss(gamma, x): 
return -(1 - x) ** gamma * x.log() 


x = nd.arange(0.01, 1, 0.01) 
for l, gamma in zip(lines, [0, 1, 5]): 
y = d2l.plt.plot(x.asnumpy(), focal_loss(gamma, x).asnumpy(), l, 
label='gamma=%.1f' % gamma) 
d21l.plt. legend() ; 
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— gamma=0.0 
===- gamma=1.0 
~~ Qgamma=5.0 





2. 训练 和 预测 

© 当 目 标 在 图 像 中 占 比 较 小 时 ， 模 型 通常 会 采用 比较 大 的 输入 图 像 尺 寸 。 

© 为 锚 框 标注 类 别 时 ， 通 常会 产生 大 量 的 负 类 锚 框 。 可 以 对 负 类 锚 框 进行 采样 ， 从 而 使 数据 类 
别 更 加 平衡 。 这 个 可 以 通过 设置 MuLtiBoxTarget 函数 的 negative_mining_ratio 参数 

© 在 损失 函数 中 为 有 关 锚 框 类 别 和 有 关 正 类 锚 框 偏 移 量 的 损失 分 别 赋予 不 同 的 权重 超 参 数 。 

© 参考 单 发 多 框 检测 论文 ， 还 有 哪些 方法 可 以 评价 目标 检测 模型 的 精度 ? 


9.8 区 域 卷 积 神经 网 络 (R-CNN ) 系列 扫 码 直达 讨论 区 








R-CNN) RE Ua, 在 本 节 中 ， 
我 们 将 介绍 R-CNN 和 它 的 一 系列 改进 方法 : 快速 的 R-CNN (Fast R-CNN) M 
更 快 的 R-CNN (Faster R-CNN) 以 及 掩 码 R-CNN (Mask R-CNN) "| 
限于 篇 幅 ， 这 里 只 介绍 这 些 模型 的 设计 思路 。 


9.8.1 R-CNN 


R-CNN 首先 对 图 像 选取 若干 提议 区 域 ( 如 销 框 也 是 一 种 选取 方法 ) 并 标注 它们 的 类 别 和 
边界 框 〈 如 偏 移 量 )。 然 后 ， 用 卷 积 神经 网 络 对 每 个 提议 区 域 做 前 向 计算 抽取 特征 。 之 后 ， 我 
们 用 每 个 提议 区 域 的 特征 预测 类 别 和 边界 框 。 图 9-5 描述 了 R-CNN 模型 。 


选择 性 搜索 
cs 





图 9-5 R-CNN 模型 
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具体 来 说 ，R-CNN 主要 由 以 下 4 步 构 成 。 


C1) 对 输入 图 像 使 用 选择 性 搜索 (selective search) 来 选取 多 个 高 质量 的 提议 区 域 ”"。 这 
些 提议 区 域 通常 是 在 多 个 尺度 下 选取 的 ， 并 具有 不 同 的 形状 和 大 小 。 每 个 提议 区 域 将 被 标注 类 
别 和 真实 边界 框 。 

(2) 选取 一 个 预 训练 的 卷 积 神经 网 络 ， 并 将 其 在 输出 层 之 前 截断 。 将 每 个 提议 区 域 变 形 为 
网 络 需要 的 输入 尺寸 ， 并 通过 前 同 计算 输出 抽取 的 提议 区 域 特征 。 

(3) 将 每 个 提议 区 域 的 特征 连同 其 标注 的 类 别 作为 一 个 样本 ， 训 练 多 个 支持 癌 量 机 对 目标 
分 类 。 其 中 每 个 支持 问 量 机 用 来 判断 样本 是 否 属于 某 一 个 类 别 。 

(4) 将 每 个 提议 区 域 的 特征 连同 其 标注 的 边界 框 作为 一 个 样本 ， 训 练 线性 回归 模型 来 预测 
真实 边界 框 。 

R-CNN 虽然 通过 预 训练 的 卷 积 神经 网 络 有 效 抽 取 了 图 像 特征 ， 但 它 的 主要 缺点 是 速度 慢 。 
想象 一 下 ， 我 们 可 能 从 一 张 图 像 中 选 出 上 千 个 提议 区 域 ， 对 该 图 像 做 目标 检测 将 导致 上 千 次 的 
卷 积 神经 网 络 的 前 癌 计 算 。 这 个 巨大 的 计算 量 令 R-CNN 难以 在 实际 应 用 中 被 广泛 采用 。 


9.8.2 FastR-CNN 


R-CNN 的 主要 性 能 瓶颈 在 于 需要 对 每 个 提议 区 域 独立 抽取 特征 。 由 于 这 些 区 域 通常 有 大 
HES, 独立 的 特征 抽取 会 导致 大 量 的 重复 计算 。Fast R-CNN 对 R-CNN 的 一 个 主要 改进 在 于 
只 对 整个 图 像 做 卷 积 神经 网 络 的 前 向 计算 。 


图 9-6 描述 了 Fast R-CNN 模型 。 





兴趣 区 域 池 化 层 


9-6 Fast R-CNN 模型 


它 的 主要 计算 步骤 如 下 。 
(1) 与 R-CNN 相 比 ，Fast R-CNN 用 来 提取 特征 的 卷 积 神经 网 络 的 输入 是 整个 图 像 ， 而 不 
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是 各 个 提议 区 域 。 而 且 ， 这 个 网 络 通常 会 参与 训练 ， 即 更 新 模型 参数 。 设 输入 为 一 张 图 像 ， 将 
卷 积 神经 网 络 的 输出 的 形状 记 为 1x c x hy x Wyo 

(2) 假设 选择 性 搜索 生成 n 个 提议 区 域 。 这 些 形状 各 异 的 提议 区 域 在 卷 积 神经 网 络 的 输 
出 上 分 别 标 出 形状 各 异 的 兴趣 区 域 。 这 些 兴 趣 区 域 需要 抽取 出 形状 相同 的 特征 (假设 高 和 宽 
均 分 别 指定 为 和 w,〉 以 便于 连结 后 输出 。Fast R-CNN 引入 兴趣 区 域 池 化 (region of interest 
pooling, Rol 池 化 ) 层 ， 将 卷 积 神经 网 络 的 输出 和 提议 区 域 作为 输入 ， 输 出 连结 后 的 各 个 提议 
区 域 标 出 的 兴趣 区 域 所 抽取 的 特征 ， 形 状 为 nxcxh x wo 

(3) 通过 全 连接 层 将 输出 形状 变换 为 nxd， 其 中 超 参 数 d 取决 于 模型 设计 。 

(4) 预测 类 别 时 ， 将 全 连接 层 的 输出 的 形状 再 变换 为 nx gq 并 使 用 softmax 回归 (gq 为 类 别 
个 数 )。 预 测 边界 框 时 ， 将 全 连接 层 的 输出 的 形状 变换 为 n x4。 也 就 是 说 ， 我 们 为 每 个 提议 区 
域 了 预测 类 别 和 边界 框 。 


Fast R-CNN 中 提出 的 兴趣 区 域 池 化 层 与 我 们 在 5.4 节 介 绍 过 的 池 化 层 有 所 不 同 。 在 池 化 层 
中 ， 我 们 通过 设置 池 化 窗口 、 填 充 和 步 幅 来 控制 输出 形状 。 而 兴趣 区 域 池 化 层 对 每 个 区 域 的 输 
出 形状 是 可 以 直接 指定 的 ， 例 如 ， 指 定 每 个 区 域 输出 的 高 和 宽 分 别 为 有 和 w,。 假 设 某 一 兴趣 
区 域 窗口 的 高 和 宽 分 别 为 h 和 w， 该 窗口 将 被 划分 为 形状 为 h xw 的 子 窗口 网 格 ， 且 每 个 子 
窗口 的 大 小 大 约 为 (A/h )x (w/w,)。 任 一 子 窗口 的 高 和 宽 要 取 整 ， 其 中 的 最 大 元 素 作 为 该 子 窗 
口 的 输出 。 因 此 ， 兴 趣 区 域 池 化 层 可 从 形状 各 寞 的 兴趣 区 域 中 均 抽取 出 形状 相同 的 特征 。 


9-7 中 ， 我 们 在 4 x 4 的 输入 上 选取 了 左上 角 的 3x3 区 域 作为 兴趣 区 域 。 对 于 该 兴趣 区 
域 ， 我 们 通过 2 x 2 兴趣 区 域 池 化 层 得 到 一 个 2 x 2 的 输出 。4 个 划分 后 的 子 窗口 分 别 含有 元 素 
0. 1. 4. 5 (SRK), 2. 6 (6RK), 8. 9 (ORK), 10. 


Tm 
域 池 化 层 





四 四 四 四 


图 9-7 2 x 2 兴趣 区 域 池 化 层 


我 们 使 用 ROIPooling 函数 来 演示 兴趣 区 域 池 化 层 的 计算 。 假 设 卷 积 神经 网 络 抽取 的 特征 
X 的 高 和 宽 均 为 4 且 只 有 单 通道 。 


In [1]: from mxnet import nd 


X = nd.arange(16).reshape((1, 1, 4, 4)) 


ict @. Fs 2s Bed 

Ce, Be CB. Fas 

Sa. Se 80. Lel 

42... 33.14. 15, ) FF) 
<NDArray 1x1x4x4 @cpu(0)> 
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假设 图 像 的 高 和 宽 均 为 40 像素 。 再 假设 选择 性 搜索 在 图 像 上 生成 了 两 个 提议 区 域 : 每 个 区 
域 由 5 个 元 素 表 示 ， 分 别 为 区 域 目标 类 别 、 左 上 角 的 x 和 ?了 轴 坐 标 以 及 右 下 角 的 x 和 ?了 了 轴 坐 标 。 


In [2]: rois = nd.array([[0, 9, 9, 20, 20], [0, 90, 10, 30, 30]}]) 


由 于 X 的 高 和 宽 是 图 像 的 高 和 宽 的 1/10， 以 上 两 个 提议 区 域 中 的 坐标 先 按 spatial_ 
scale HÆ 0.1, SARE X 上 分 别 标 出 兴趣 区 域 X[:,:,09:3,9:3] 和 X[:,:,1:4,0:4]。 最 后 
对 这 两 个 兴趣 区 域 分 别 划 分 子 窗口 网 格 并 抽取 高 和 宽 为 2 的 特征 。 


In [3]: nd.ROIPooLing(X， rois, pooled_size=(2, 2), spatial_scale=0.1) 


Out[3]: 
EELE 1 6.9 
L BS. 28.33) 


fff 9-14.) 
fi3.-15.]]]) 
<NDArray 2x1x2x2 @cpu(@)> 


9.8.3 Faster R-CNN 


Fast R-CNN 通常 需要 在 选择 性 搜索 中 生成 较 多 的 提议 区 域 ， 以 获得 较 精确 的 目标 检测 结 
R. Faster R-CNN 提出 将 选择 性 搜索 蔡 换 成 区 域 提 议 网 络 (region proposal network), AA TI Jak 
少 提议 区 域 的 生成 数量 ， 并 保证 目标 检测 的 精度 。 


图 9-8 描述 了 Faster R-CNN 模型 。 与 Fast R-CNN 相 比 ， 只 有 生成 提议 区 域 的 方法 从 选 
择 性 搜索 变 成 了 区 域 提议 网 络 ， 而 其 他 部 分 均 保 持 不 变 。 有 具体 来 说 ， 区 域 提议 网 络 的 计算 步 
RU Fo 






兴趣 区 域 池 化 层 非 极 大 值 抑制 2 — a | 


区 域 提 议 网 络 


9-8 Faster R-CNN 模型 
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(1) 使 用 填充 为 1 的 3x3 卷 积 层 变换 卷 积 神经 网 络 的 输出 ， 并 将 输出 通道 数 记 为 c。 这 样 ， 
卷 积 神经 网 络 为 图 像 抽 取 的 特征 图 中 的 每 个 单元 均 得 到 一 个 长 度 为 ec 的 新 特征 。 

(2) 以 特征 图 每 个 单元 为 中 心 ， 生 成 多 个 不 同 大 小 和 宽 高 比 的 锚 框 并 标注 它们 。 

(3) 用 销 框 中 心 单元 长 度 为 c 的 特征 分 别 预测 该 锚 框 的 二 元 类 别 〈 含 目标 还 是 背景 ) 和 边 
FME o 

(4) 使 用 非 极 大 值 抑制 ， 从 预测 类 别 为 目标 的 预测 边界 框 中 移 除 相似 的 结果 。 最 终 输 出 的 
预测 边界 框 即兴 趣 区 域 池 化 层 所 需要 的 提议 区 域 。 


值得 一 提 的 是 ， 区 域 提议 网 络 作为 Faster R-CNN 的 一 部 分 ， 是 和 整个 模型 一 起 训练 得 到 
Ho EI, Faster R-CNN 的 目标 函数 既 包括 目标 检测 中 的 类 别 和 边界 框 预测 ， 又 包括 区 域 
提议 网 络 中 销 框 的 二 元 类 别 和 边界 框 预 测 。 最 终 ， 区 域 提议 网 络 能 够 学 习 到 如 何 生 成 高 质量 的 
提议 区 域 ， 从 而 在 减少 提议 区 域 数量 的 情况 下 也 能 保证 目标 检测 的 精度 。 


9.8.4 Mask R-CNN 


如 果 训 练 数据 还 标注 了 每 个 目标 在 图 像 上 的 像素 级 位 置 ， 那 么 Mask R-CNN 能 有 效 利用 这 
些 详尽 的 标注 信息 进一步 提升 目标 检测 的 精度 。 


如 图 9-9 Pras, Mask R-CNN 在 Faster R-CNN 的 基础 上 做 了 修改 。Mask R-CNN 将 兴趣 区 
域 池 化 层 蕉 换 成 了 兴趣 区 域 对 齐 层 ， 即 通过 双 线 性 插值 (bilinear interpolation) 来 保留 特征 图 
上 的 空间 信息 ， 从 而 更 适 于 像素 级 预测 。 兴 趣 区 域 对 齐 层 的 输出 包含 了 所 有 兴趣 区 域 的 形状 相 
同 的 特征 图 。 它 们 既 用 来 预测 兴趣 区 域 的 类 别 和 边界 框 ， 又 通过 额外 的 全 卷 积 网 络 预测 目标 的 
像素 级 位 置 。 我 们 将 在 9.10 节 介 绍 如 何 使 用 全 卷 积 网 络 预测 图 像 中 像素 级 的 语义 。 









兴趣 区 域 对 齐 层 
o [| m 
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R-CNN 对 图 像 选取 若干 提议 区 域 ， 然 后 用 卷 积 神经 网 络 对 每 个 提议 区 域 做 前 向 计算 抽取 特 
征 ， 再 用 这 些 特征 预测 提议 区 域 的 类 别 和 边界 框 。 

Fast R-CNN 对 R-CNN 的 一 个 主要 改进 在 于 只 对 整个 图 像 做 卷 积 神经 网 络 的 前 向 计算 。 它 引 
入 了 兴趣 区 域 池 化 层 ， 从 而 令 兴 趣 区 域 能 够 抽取 出 形状 相同 的 特征 。 

Faster R-CNN 将 Fast R-CNN 中 的 选择 性 搜索 替换 成 区 域 提议 网 络 ， 从 而 减少 提议 区 域 的 生 


成 数量 ， 并 保证 目标 检测 的 精度 。 
Mask R-CNN Æ Faster R-CNN 基础 上 引入 一 个 全 卷 积 网 络 ， 从 而 借助 目标 的 像素 级 位 置 进 一 
步 提 升 目标 检测 的 精度 。 


练习 
了 解 GluonCV 工具 包 中 有 关 本 节 中 各 个 模型 的 实现 。” 
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在 前 几 节 讨论 的 目标 检测 问题 中 ， 我 们 一 直 使 用 方形 边界 框 来 标注 和 
预测 图 像 中 的 目标 。 本 节 将 探讨 语义 分 割 (semantic segmentation) 问题 ， 
它 关 注 如 何 将 图 像 分 割 成 属于 不 同 语义 类 别 的 区 域 。 值 得 一 提 的 是 ， 这 些 
语义 区 域 的 标注 和 预测 都 是 像素 级 的 。 图 9-10 展示 了 语义 分 割 中 图 像 有 关 
狗 、 猫 和 背景 的 标签 。 可 以 看 到 ， 与 目标 检测 相 比 ， 语 义 分 割 标 注 的 像素 
级 的 边框 显然 更 加 精细 。 








图 9-10 语义 分 割 中 图 像 有 关 狗 、 猎 和 背景 的 标签 


9.9.1 图 像 分 割 和 实例 分 割 


计算 机 视觉 领域 还 有 2 个 与 语义 分 割 相似 的 重要 问题 ， 即 图 像 分 割 (image segmentation) 
和 实例 分 割 (instance segmentation)。 我 们 在 这 里 将 它们 与 语义 分 割 简单 区 分 一 下 。 


O ” GluonCV 工 具 包 参见 https://gluon-cv.mxnet.io/。 
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© 图 像 分 割 将 图 像 分 割 成 者 干 组 成 区 域 。 这 类 问题 的 方法 通常 利用 图 像 中 像素 之 间 的 相 
天性 。 它 在 训练 时 不 需要 有 关 图 像 像素 的 标签 信息 ， 在 预测 时 也 无 法 保证 分 割 出 的 
区 域 具有 我 们 希望 得 到 的 语义 。 以 图 9-10 的 图 像 为 输入 ， 图 像 分 割 可 能 将 狗 分 割 成 
两 个 区 域 : 一 个 覆盖 以 黑色 为 主 的 嘴巴 和 眼睛 ， 而 另 一 个 覆盖 以 黄色 为 主 的 其 余部 
分 喘 体 。 

© 实例 分 割 义 叫 同时 检测 并 分 割 (simultaneous detection and segmentation)。 它 研究 如 何 
识别 图 像 中 各 个 目标 实例 的 像素 级 区 域 。 与 语义 分 割 有 所 不 同 ， 实 例 分 割 不 仅 需 要 区 
分 语义 ， 还 要 区 分 不 同 的 目标 实例 。 如 果 图 像 中 有 两 只 狗 ， 实 例 分 割 需 要 区 分 像素 属 
于 这 两 只 狗 中 的 哪 一 只 。 


99.2 Pascal VOC2012 语 义 分 割 数据 集 


语义 分 割 的 一 个 重要 数据 集 叫 作 Pascal VOC2012 数据 集 。 为 了 更 好 地 了 解 这 个 数据 集 ， 
我 们 先导 入 实验 所 需 的 包 或 模块 。 


In [1]: %matplotlib inline 
import d2Lzh as d21l 
from mxnet import gluon, image, nd 
from mxnet.gluon import data as gdata, utils as gutils 
import os 
import sys 
import tarfile 


我 们 下 载 这 个 数据 集 的 压缩 包 到 . ./data 路 径 下 。 压 缩 包 大 小 是 2 GB 左右 ， 下 载 需要 一 
定时 间 。 解 压 之 后 的 数据 集 将 会 放置 在 . . /data/vocdevkit/V0C2012 路 径 下 。 


In [2]: # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 
def download_voc_pascal(data_dir='../data'): 
voc_dir = os.path.join(data_dir, 'VOCdevkit/V0OC2012') 
url = ('http://host.robots.ox.ac.uk/pascal/VOC/voc2012' 
'/VOCtrainval_11-May-2012.tar') 
shal = '4e443f8a2eca6bldac8a6c57641b67dd40621a49' 
fname = gutils.download(url, data_dir, shal_hash=shal1) 
with tarfile.open(fname, 'r') as f: 
f.extractall(data_dir) 
return voc_dir 


voc_dir = download_voc_pascal() 


WEA ../data/VOCdevkit/V0C2012 路 径 后 ， 我 们 可 以 获取 数据 集 的 不 同 组 成 部 分 。 其 
中 ImageSets/Segmentation 路 径 包 含 了 指定 训练 和 测试 样本 的 文本 文件 ， 而 JPEGImages 
和 SegmentationClass 路 径 下 分 别 包 含 了 样本 的 输入 图 像 和 标签 。 这 里 的 标签 也 是 图 像 格式 ， 
其 尺寸 和 它 所 标注 的 输入 图 像 的 尺寸 相同 。 标 签 中 颜色 相同 的 像素 属于 同一 个 语义 类 别 。 下 面 
定义 read_voc_images 函数 将 输入 图 像 和 标签 全 部 读 进 内 存 。 
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In [3]: # 本 遂 数 已 保存 在 d21zh 包 中 方便 以 后 使 用 
def read_voc_images(root=voc_dir, is_train=True): 
txt_fname = '%s/ImageSets/Segmentation/%s' % ( 
root, 'train.txt' if is_train else 'val.txt') 
with open(txt_fname, 'r') as f: 
images = f.read().split() 
features, labels = [None] * len(images), [None] * lLen(images) 
for i, fname in enumerate(images): 
features[i] = image. imread('%s/JPEGImages/%s.jpg' % (root, fname) ) 
labels[i] = image. imread( 
'%es/SegmentationClass/%s.png' % (root, fname) ) 
return features, labels 


train_features, train_labels = read_voc_images() 


我 们 画 出 前 5 KAA AAA EZ. FEE AR, KEMLER 
景 ， 而 其 他 不 同 的 颜色 则 对 应 不 同 的 类 别 〈 另 见 彩 插图 18). 
In [4]: n=5 


imgs = train_features[0:n] + train_labels[0:n] 
d2l.show_images(imgs, 2, n); 





接 下 来 ， 我 们 列 出 标签 中 每 个 RGB 颜色 的 值 及 其 标注 的 类 别 。 


In [5]: # 该 常量 已 保存 在 d21zh 包 中 方便 以 后 使 用 

VOC_COLORMAP = [[0, 0, 0], [128, 0, 0], [60, 128, 0], [128, 128, 0], 
[0, O, 1286], BR O [P1267 >} fo I or (1268 ,: 128,126), 
[64, ©, 0], [192, 0, 0], [64, 128, ©], [192, 128, 0], 
[64, ©, 128], [192, 0, 128], [64, 128, 128], [192, 128, 128], 
[0, 64, 0], [128, 64, 0], [0, 192, 0], [128, 192, 0], 
[0, 64, 128]] 

# 该 常量 已 保存 在 d21zh 包 中 方便 以 后 使 用 

VOC_CLASSES = ['background', 'aeroplane', 'bicycle', 'bird', 'boat', 


DOELE. ‘bus’, *car’, catt ORATE Te COW. 
'diningtable', 'dog', 'horse', 'motorbike', 'person', 
‘potted plant', 'sheep', 'sofa', 'train', 'tv/monitor'] 





AS EE MAPS i, RII DAA A 5 St Bt ER hp SEEM RAW RR 5 


D 
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In [6]: colormap2label = nd.zeros(256 ** 3) 
for i, colormap in enumerate(VOC_COLORMAP) : 
colormap2Label[(colormap[0] * 256 + colormap[1]) * 256 + colormap[2]] = i 


# 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def voc_label_indices(colormap, colormap2label): 
colormap = colormap.astype('int32') 
idx = ((colormap[:, :, 0] * 256 + colormap[:, :, 1]) * 256 
+ colormap[:, :, 2]) 
return colormap2label[idx|] 


例如 ， 第 一 张 样本 图 像 中 飞机 头 部 区 域 的 类 别 索引 为 1， 而 背景 全 是 0。 


In [7]: y = voc_label_indices(train_labels[0], colormap2labelL) 
y[105:115, 130:140], VOC_CLASSES[1] 


Outils -£ 

bi (os n Be Ge Be Ci Ba. @.--1~] 
Dro eet i®. (see. 8. By “2s 2. Ael 
Pas. Der M208; 8. "S54. 2. Es] 
te Pee pe, So eee ee et Sort ae As] 
Os, Ae Oriana Es 1a) 
e.: Qre sees iv Sete: 工程 
10. Ge BS ceerce, bob dee oe lg 
Os SecrO wb. 28, Bose ec le 
io. PB Go e, Glee se eee, = (1 
ie, ON es aS Be ee ae dee] 

<NDArray 10x10 @cpu(0)>, ‘aeroplane’ ) 


1， 预 处 理 数 据 


在 之 前 的 章节 (如 5.6 节 至 5.9 节 ) 中 ， 我 们 通过 缩放 图 像 使 其 符合 模型 的 输入 形状 。 然 
而 在 语义 分 割 里 ， 这 样 做 需要 将 预测 的 像素 类 别 重新 映射 回 原 始 尺寸 的 输入 图 像 。 这 样 的 映 
射 难以 做 到 精确 ， 尤 其 在 不 同 语义 的 分 割 区 域 。 为 了 避免 这 个 问题 ， 我 们 将 图 像 裁 前 成 固定 
尺寸 而 不 是 缩放 。 有 具体 来 说 ， 我 们 使 用 图 像 增 广 里 的 随机 裁剪 ， 并 对 输入 图 像 和 标签 裁剪 相同 
区 域 〈 另 见 彩 插图 19). 


In [8]: # 本 函数 已 保存 在 d21Lzh 包 中 方便 以 后 使 用 
def voc_rand_crop(feature, label, height, width): 
feature, rect = image.random_crop(feature, (width, height) ) 
label = image. fixed_crop(label, *rect) 
return feature, label 


imgs = [] 
for _ in range(n): 

imgs += voc_rand_crop(train_features[0], train_labels[0], 200, 300) 
d21.show_images(imgs[::2] + imgs[1::2], 2, n); 
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2. 目 定 义 语义 分 割 数据 集 类 


我 们 通过 继承 Gluon 提供 的 Dataset 类 目 定义 了 一 个 语义 分 割 数据 集 类 VOCSegDataset. 
通过 实现 __getitem__ 函数 ， 我 们 可 以 任意 访问 数据 集中 索引 为 idx 的 输入 图 像 及 其 每 个 像 
素 的 类 别 索 引 。 由 于 数据 集中 有 些 图 像 的 尺寸 可 能 小 于 随机 裁剪 所 指定 的 输出 尺寸 ， 这 些 样 本 
需要 通过 上 自 定 义 的 filter 图 数 所 移 除 。 此 外 ， 我 们 还 定义 了 normalize_image HA, Mii 
对 输入 图 像 的 RGB 三 个 通道 的 值 分 别 做 标准 化 。 


In [9]: # 本 类 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
class VOCSegDataset(gdata.Dataset): 


def 


def 


def 


def 


def 


__init__(self, is_train, crop_size, voc_dir, colormap2lLabelL): 
self.rgb_mean = nd.array([0.485, 0.456, 0.406]) 
self.rgb_std = nd.array([0.229, 0.224, 0.225]) 
self.crop_size = crop_size 
features, labels = read_voc_images(root=voc_dir, is_train=is_train) 
self.features = [self.normalize_image(feature) 

for feature in self.filter(features) ] 
self.labels = self.filter (labels) 
self.colormap2label = colormap2label 
print('read ' + str(len(self.features)) + ' examples') 


normalize_image(self, img): 
return (img.astype('float32') / 255 - self.rgb_mean) / self.rgb_std 


filter(self, imgs): 

return [img for img in imgs if ( 
img.shape[0] >= self.crop_size[0] and 
img.shape[1] >= self.crop_size[1]) ] 


__getitem__(self, idx): 
feature, label = voc_rand_crop(self.features[idx], self. labels[idx], 
xself.crop_size) 
return (feature.transpose((2, 0, 1)), 
voc_label_indices(label, self.colormap2LabelL) ) 


__len__(self): 
return len(self. features) 
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3， 读 取 数 据 集 


我 们 通过 自 定义 的 VOCSegDataset 类 来 分 别 创建 训练 集 和 测试 集 的 实例 。 假 设 我 们 指定 随 
机 裁剪 的 输出 图 像 的 形状 为 320x480。 下 面 我 们 可 以 查看 训练 集 和 测试 集 所 保留 的 样本 个 数 。 
In [10]: crop_size = (320, 480) 


voc_train = VOCSegDataset(True, crop_size, voc_dir, colormap2label) 
voc_test = VOCSegDataset(False, crop_size, voc_dir, colormap2label) 


read 1114 examples 
read 1078 examples 


WIA DA 64, TIE VARA MASE IE CAE o 


In [11]: batch_size = 64 
num_workers = 0 if sys.platform.startswith('win32') else 4 
train_iter = gdata.DataLoader(voc_train, batch_size, shuffle=True, 
Llast_batch='discard', num_workers=num_workers) 
test_iter = gdata.DataLoader(voc_test, batch_size, last_batch='discard', 
num_workers=num_workers) 


打印 第 一 个 小 批量 的 形状 。 不 同 于 图 像 分 类 和 目标 识别 ， 这 里 的 标签 是 一 个 三 维 数 组 。 


In [12]: for X, Y in train_iter: 
print (X.shape) 
print(Y.shape) 
break 


(64, 3, 320, 480) 
(64, 320, 480) 


语义 分 割 关注 如 何 将 图 像 分 割 成 属于 不 同 语义 类 别 的 区 域 。 

语义 分 割 的 一 个 重要 数据 集 叫 作 Pascal VOC2012. 

由 于 语义 分 割 的 输入 图 像 和 标签 在 像素 上 一 一 对 应 ， 所 以 将 图 像 随机 载 剪 成 国定 尺寸 而 不 是 
缩放 。 


练习 
回忆 9.1 节 中 的 内 容 。 哪 些 在 图 像 分 类 中 使 用 的 图 像 增 广 方法 难以 用 于 语义 分 割 ? 
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9.9 节 介 绍 了 ， 我 们 可 以 基于 语义 分 割 对 图 像 中 的 每 个 像素 进行 类 别 预 
测 。 全 卷 积 网 络 (fully convolutional network, FCN) 采用 卷 积 神经 网 络 实现 
了 从 图 像 像 素 到 像素 类 别 的 变换 “。 与 之 前 介绍 的 卷 积 神经 网 络 有 所 不 [m] 
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同 ， 全 卷 积 网 络 通过 转 置 卷 积 (transposed convolution〉 层 将 中 间 层 特征 图 的 高 和 宽 变 换 回 输 
入 图 像 的 尺寸 ， 从 而 令 预 测 结果 与 输入 图 像 在 空间 维 (高 和 宽 ) 上 一 一 对 应 : 给 定 空间 维 上 的 
位 置 ， 通 道 维 的 输出 即 该 位 置 对 应 像素 的 类 别 预 测 。 


我 们 先导 入 实验 所 需 的 包 或 模块 ， 然 后 解释 什么 是 转 置 卷 积 层 。 


In [1]: %matplotlib inline 
import d2Lzh as d21 
from mxnet import gluon, image, init, nd 
from mxnet.gluon import data as gdata, loss as gloss, model_zoo, nn 
import numpy as np . 
import sys 


9.10.1 转 置 卷 积 层 


顾名思义 ， 转 置 卷 积 层 得 名 于 矩阵 的 转 置 操作 。 事 实 上 ， 卷 积 运算 还 可 以 通过 矩阵 乘法 来 
实现 。 在 下 面 的 例子 中 ， 我 们 定义 高 和 宽 分 别 为 4 的 输入 X， 以 及 高 和 宽 分 别 为 3 的 卷 积 核 K。 
打印 二 维 卷 积 运算 的 输出 以 及 卷 积 核 。 可 以 看 到 ， 输 出 的 高 和 宽 分 别 为 2。 


In [2]: X = nd.arange(1, 17).reshape((1, 1, 4, 4)) 
K = nd.arange(1, 10).reshape((1, 1, 3, 3)) 
conv = nn.Conv2D(channels=1,; kernel_size=3) 
conv.initialize(init.Constant(k) ) 
conv(X), K 


Out[2]: ( 
[[[[348. 393.] 
[528. 573.]]]] 
<NDArray 1x1x2x2 @cpu(0)>, 
LEE hes. 2202] 
[4. 5. 6.] 
Ets r apt? 
<NDArray 1x1x3x3 @cpu(0)>) 


下 面 我 们 将 卷 积 核 K 改写 成 含有 大 量 零 元 素 的 稀疏 矩阵 Ww， 即 权重 和 矩阵 。 权 重 和 矩阵 的 形状 
为 (4, 16)， 其 中 的 非 零 元 素来 自 卷 积 核 K 中 的 元 素 。 将 输入 X 逐 行 连结 ， 得 到 长 度 为 16 的 向 
量 。 然 后 将 W 与 器 量化 的 xX 做 矩阵 乘法 ， 得 到 长 度 为 4 的 向 量 。 对 其 变形 后 ， 我 们 可 以 得 到 和 
上 面 卷 积 运算 相同 的 结果 。 可 见 ， 我 们 在 这 个 例子 中 使 用 和 矩阵 乘法 实现 了 卷 积 运算 。 


In [3]: W, k = nd.zeros((4, 16)), nd.zeros(11) 
KEtSionK(4¢7)., .KL83), = KLOs: @, 85° £).5 KEG) 0, 2s 2] 9 KEO, 8542; a8) 
WE WL1,.1:12], W[2, 4:15], Wi3, 5:16] = Kk, k; k, K 
nd.dot(W, X.reshape(16)).reshape((1, 1, 2, 2)), W 


Out[3}: ¢ 
[[[[348. 393. ] 
[528. 573.]]]] 
<NDArray 1x1x2x2 @cpu(0)>, 
[Tix 2. os Oe Es os ee a Te 
[O52 2:3.-00: Si GA Fa 
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ER A 
KEN TE T, E Er ate 3.48, 
<NDArray 4x16 @cpu(0)>) 

PE FRA FEE FERIA RISH. KARA x, MEERE W, BERRI 
Eiti PR BCA SEE AY LA ERS eR a A Se DA EE, FT Te) et y = We FRAT AE, JR IA 
传播 需要 依据 链 式 法 则 。 由 于 Vy =W', PRE HR eR BY SEL DAE ew HT A E 
以 转 置 后 的 权重 矩阵 W o TH E ERJA ERX H T BREN ARRAS Ree ae: 
PH PR BT WES BHAA A EE WW 


PERR, FEB AEA FY VAR AC REIR a AF FAR. ERA ARSE HE ERA HE 
卷 积 。 设 权重 矩阵 是 形状 为 4x16 的 和 矩阵， 对 于 长 度 为 16 的 输入 同 量 ， 卷 积 前 问 计 算 输 出 长 度 为 
4 的 向 量 。 假 如 输入 向 量 的 长 度 为 4， 转 置 权重 矩阵 的 形状 为 16x4， 那 么 转 置 卷 积 层 将 输出 长 度 
为 16 的 向 量 。 在 模型 设计 中 ， 转 置 卷 积 层 常用 于 将 较 小 的 特征 图 变换 为 更 大 的 特征 图 。 在 全 卷 积 
网 络 中 ， 当 输入 是 高 和 宽 较 小 的 特征 图 时 ， 转 置 卷 积 层 可 以 用 来 将 高 和 宽 放 大 到 输入 图 像 的 尺寸 。 


我 们 来 看 一 个 例子 。 构 造 一 个 卷 积 层 conv, HEA X 的 形状 为 (1, 3, 64, 64)。 卷 积 输 出 
Y 的 通道 数 增加 到 10， 但 高 和 宽 分 别 缩小 了 一 半 。 


In [4]: conv = nn.Conv2D(10, kernel_size=4, padding=1, strides=2) 
conv.initialize() 


5. 
4. 


X = nd.random.uniform(shape=(1, 3, 64, 64)) 
Y = conv(X) 
Y.shape 


Out[4]: (1, 10, 32, 32) 

下 面 我 们 通过 创建 Conv2DTranspose 实例 来 构造 转 置 卷 积 层 conv_trans。 这 里 我 们 设 
conv_trans 的 卷 积 核 形 状 、 填 充 以 及 步 幅 与 conv 中 的 相同 ， 并 设 输出 通道 数 为 3。 当 输入 为 
卷 积 层 conv 的 输出 Y 时， 转 置 卷 积 层 输 出 与 卷 积 层 输入 的 高 和 宽 相 同 : 转 置 卷 积 层 将 特征 图 
的 高 和 宽 分 别 放 大 了 2 倍 。 


In [5]: conv_trans = nn.Conv2DTranspose(3, kernel_size=4, padding=1, strides=2) 
conv_trans.initialize() 
conv_trans(Y).shape 


Out[5]: (1, 3, 64, 64) 


在 有 些 文献 中 ， 转 置 卷 积 也 被 称 为 分 数 步 长 卷 积 (fractionally-strided convolution) "”’. 


9.10.2 构造 模型 


我 们 在 这 里 给 出 全 卷 积 网 络 模型 最 基本 的 设计 。 如 图 9-11 所 示 ， 全 卷 积 网 络 先 使 用 卷 积 
神经 网 络 抽取 图 像 特征 ， 然 后 通过 1x1 卷 积 层 将 通道 数 变 换 为 类 别 个 数 ， 最 后 通过 转 置 卷 积 层 
将 特征 图 的 高 和 宽 变 换 为 输入 图 像 的 尺寸 。 模 型 输出 与 输入 图 像 的 高 和 宽 相 同 ， 并 在 空间 位 置 
上 一 一 对 应 : 最 终 输 出 的 通道 包含 了 该 空间 位 置 像 素 的 类 别 预 测 。 
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卷 积 神经 网 络 





图 9-11 全 卷 积 网 络 


下 面 我 们 使 用 一 个 基于 ImageNet 数据 集 预 训练 的 ResNet-18 模型 来 抽取 图 像 特征 ， 并 将 
该 网 络 实例 记 为 pretrained_net。 可 以 看 到 ， 该 模型 成 员 变 量 features 的 最 后 两 层 分 别 是 
全 局 最 大 池 化 层 GlobalAvgPool2D 和 样本 变 平 层 Flatten， 而 output 模块 包含 了 输出 用 的 
全 连接 层 。 全 卷 积 网 络 不 需要 使 用 这 些 层 。 


In [6]: pretrained_net = model_zoo.vision.resnet18_v2(pretrained=True) 
pretrained_net.features[-4:], pretrained_net.output 


Out[6]: (HybridSequential ( 

(0): BatchNorm(axis=1, eps=le-05, momentum=0.9, fix_gamma=False, 
一 use_global_stats=False, in_channels=512) 

(1): Activation(relu) 

(2): GlobalAvgPool2D(size=(1, 1), stride=(1, 1), padding=(0, 0), 
— ceil_mode=True) 

(3): Flatten 

), Dense(512 -> 1000, Linear)) 


下 面 我 们 创建 全 卷 积 网 络 实例 net。 它 复制 了 pretrained_net 实例 的 成 员 变量 features 
里 除去 最 后 两 层 的 所 有 层 以 及 预 训练 得 到 的 模型 参数 。 


In [7]: net = nn.HybridSequential() 
for layer in pretrained_net.features[:-2]: 
net.add( Layer) 


给 定 高 和 宽 分 别 为 320 和 480 的 输入 ，net 的 前 向 计算 将 输入 的 高 和 宽 减 小 至 原来 的 /32， 
即 10 和 15。 


In [8]: X = nd.random.uniform(shape=(1, 3, 320, 480)) 
net (X).shape 


Out[8]: (1, 512, 10, 15) 
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接 下 来 ， 我 们 通过 1x1 卷 积 层 将 输出 通道 数 变换 为 Pascal VOC2012 数据 集 的 类 别 个 数 21。 
最 后 ， 我 们 需要 将 特征 图 的 高 和 宽 放 大 32 倍 ， 从 而 变 回 输入 图 像 的 高 和 宽 。 回 忆 一 下 5.2 节 
中 描述 的 卷 积 层 输出 形状 的 计算 方法 。 由 于 (320-64+16x2+32)/32=10 H. (480-644+16x2+ 
32)/32 =15， 我 们 构造 一 个 步 幅 为 32 的 转 置 卷 积 层 ， 并 将 卷 积 核 的 高 和 宽 设 为 64、 填 充 设 为 
16。 不 难 发 现 ， 如 果 步 幅 为 s、 填 充 为 %2〈 假 设 s/2 为 整数 ) 、 卷 积 核 的 高 和 宽 为 29， 转 置 郑 
积 核 将 输入 的 高 和 宽 分 别 放大 s 倍 。 


In [9]: num_classes = 21 
net.add(nn.Conv2D(num_classes, kernel_size=1), 
nn.Conv2DTranspose(num_classes, kernel_size=64, padding=16, 
strides=32) ) 


9.10.3 初始 化 转 置 疮 积 层 


我 们 已 经 知道 ， 转 置 卷 积 层 可 以 放大 特征 图 。 在 图 像 处 理 中 ， 我 们 有 时 需要 将 图 像 放 大 ， 
即 上 采样 (upsample)。 上 采样 的 方法 有 很 多 ， 常 用 的 有 双 线 性 插值 。 简 单 来 说 ， 为 了 得 到 输出 
图 像 在 坐标 (x, y) 上 的 像素 ， 先 将 该 坐标 映射 到 输入 图 像 的 坐标 (x', y”) ， 例 如 ， 根 据 输入 与 输 
出 的 尺寸 之 比 来 映射 。 映 射 后 的 x 和 y 通常 是 实数 。 然 后 ， 在 输入 图 像 上 找到 与 坐标 (x', y) 最 
近 的 4 像素 。 最 后 ， 输 出 图 像 在 坐标 (x, y) 上 的 像素 依据 输入 图 像 上 这 4 像素 及 其 与 (x', y) 的 相 
对 距离 来 计算 。 双 线性 插值 的 上 采样 可 以 通过 由 以 下 bilinear_kernel 函数 构造 的 卷 积 核 的 转 
置 卷 积 层 来 实现 。 限 于 篇 幅 ， 我 们 只 给 出 bilinear_kernel 函数 的 实现 ， 不 再 讨论 算法 的 原理 。 


In [10]: def bilinear_kernel(in_channels, out_channels, kernel_size): 

factor = (kernel_size + 1) // 2 
if kernel_size % 2 == 1: 

center = factor - 1 
else: 

center = factor - 0.5 
og = np.ogrid[:kernel_size, :kernel_size] 
filt = (1 - abs(og[0] - center) / factor) > \ 

(1 - abs(og[1] - center) / factor) 
weight = np.zeros((in_channels, out_channels, kernel_size, kernel_size) , 
dtype='float32') 

weight[range(in_channels), range(out_channels), :, :] = filt 
return nd.array (weight) 


我 们 来 实验 一 下 用 转 置 卷 积 层 实现 的 双 线 性 插值 的 上 采样 。 构造 一 个 将 输入 的 高 和 宽 放大 
2 倍 的 转 置 卷 积 层 ， 并 将 其 卷 积 核 用 bilinear_kernel 函数 初始 化 。 


In [11]: conv_trans = nn.Conv2DTranspose(3, kernel_size=4, padding=1, strides=2) 
conv_trans.initialize(init.Constant(bilinear_kernel(3, 3, 4))) 


读 取 图 像 X， 将 上 采样 的 结果 记 作 Y。 为 了 打印 图 像 ， 我 们 需要 调整 通道 维 的 位 置 。 


In [12]: img = image.imread('../img/catdog.jpg') 
X = img.astype('float32').transpose((2, 0, 1)).expand_dims(axis=0) / 255 
Y = conv_trans(X) 
out_img = Y[0].transpose((1, 2, 0)) 


910 BAMA (FCN) + 295° 


可 以 看 到 ， 转 置 卷 积 层 将 图 像 的 高 和 宽 分 别 放大 2 倍 。 值 得 一 提 的 是 ， 除 了 坐标 刻度 不 
同 ， 双 线性 插值 放大 的 图 像 和 9.3 节 中 打印 出 的 原 图 看 上 去 没什么 两 样 。 


In [13]: d2l.set_figsize() 
print('input image shape:', img.shape) 
d21l.plt.imshow(img.asnumpy()) ; 
print('output image shape:', out_img.shape) 
d2l.plt.imshow(out_img.asnumpy ()) ; 


input image shape: (561, 728, 3) 
output image shape: (1122, 1456, 3) 





0 500 1000 
在 全 卷 积 网 络 中 ， 我 们 将 转 置 卷 积 层 初 始 化 为 双 线 性 插值 的 上 采样 。 对 于 1 x 1 卷 积 层 ， 
我 们 采用 Xavier 随机 初始 化 。 


In [14]: net[-1].initialize(init.Constant(bilinear_kernel(num_classes, num_classes, 
64) )) 


net[-2].initialize(init=init.Xavier() ) 


9.10.4 读 取 效 据 集 


我 们 用 9.9 节 介 绍 的 方法 读 取 数 据 集 。 这 里 指定 随机 裁剪 的 输出 图 像 的 形状 为 320 x 480: 
高 和 宽 都 可 以 被 32 整除 。 


In [15]: crop_size, batch_size, colormap2label = (320, 480), 32, nd.zeros(256**3) 
for i, cm in enumerate(d21l.VOC_COLORMAP) : 
colormap2label[(cm[0] * 256 + cm[1]) * 256 + cm[2]] = i 
voc_dir = d2l.download_voc_pascal(data_dir='../data') 


num_workers = 0 if sys.platform.startswith('win32') else 4 
train_iter = gdata.DataLoader ( 
d2l.VOCSegDataset(True, crop_size, voc_dir, colormap2label), batch_size, 
shuffle=True, lLast_batch='discard', num_workers=num_workers) 
test_iter = gdata.DataLoader ( 
d21l.VOCSegDataset(False, crop_size, voc_dir, colormap2label), batch_size, 
Last_batch='discard', num_workers=num_workers) 


read 1114 examples 
read 1078 examples 
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9.10.5 ”训练 模型 


现在 可 以 开始 训练 模型 了 。 这 里 的 损失 函数 和 准确 率 计 算 与 图 像 分 类 中 的 并 没有 本 质 上 的 不 
同 。 因 为 我 们 使 用 转 置 卷 积 层 的 通道 来 预测 像素 的 类 别 ， 所 以 在 SoftmaxCrossEntropyLoss 里 
指定 了 axis=1 (通道 维 ) 选项 。 此 外 ， 模 型 基于 每 个 像素 的 预测 类 别 是 否 正确 来 计算 准确 率 。 


In [16]: ctx = d2l.try_all_gpus() 
loss = gloss.SoftmaxCrossEntropyLoss(axis=1) 


net.collect_params().reset_ctx (ctx) 

trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 
'wd': le-3}) 

d21l.train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs=5) 


training on [gpu(0), gpu(1), gpu(2), gpu(3) ] 


epoch 1, loss 
epoch 2, loss 
epoch 3, loss 
epoch 4, Loss 
epoch 5, loss 


1.3306, train acc 
0.6524, train acc 
0.5364, train acc 
0.4650, train acc 
0.4017, train acc 


9.10.6 “预测 像素 类 别 


在 预测 时 ， 我 们 需要 将 输入 图 像 在 各 个 通道 做 标准 化 ， 并 转 成 卷 积 神经 网 络 所 需要 的 四 维 


输入 格式 。 


In [17]: def 


为 了 可 视 化 每 个 像素 的 预测 类 别 ， 我 们 将 预测 类 别 映射 回 它 们 在 数据 集中 的 标注 颜色 。 


In [18]: def 


测试 数据 集中 的 图 像 大 小 和 形状 各 异 。 由 于 模型 使 用 了 步 幅 为 32 的 转 置 卷 积 层 ， 当 输入 
图 像 的 高 或 宽 无 法 被 32 整除 时 ， 转 置 卷 积 层 输出 的 高 或 宽 会 与 输入 图 像 的 尺寸 有 偏差 。 为 了 
解决 这 个 问题 ， 我 们 可 以 在 图 像 中 截取 多 块 高 和 宽 为 32 的 整数 倍 的 矩形 区 域 ， 并 分 别 对 这 些 
区 域 中 的 像素 做 前 癌 计 算 。 这 些 区 域 的 并 集 需 要 完整 覆盖 输入 图 像 。 当 一 个 像素 被 多 个 区 域 所 
覆 商 时 ， 它 在 不 同 区 域 前 向 计算 中 转 置 卷 积 层 输出 的 平均 值 可 以 作为 softmax 运算 的 输入 ， 从 


而 预测 类 别 。 


简单 起 见 ， 我 们 只 读 取 几 张 较 大 的 测试 图 像 ， 并 从 图 像 的 左上 角 开 始 截 取 形 状 为 
只 有 该 区 域 用 于 预测 。 对 于 输入 图 像 ， 我 们 先 打 印 截取 的 区 域 ， 再 打印 预 


320 x 480 的 区 域 : 


predict(img): 


0.726, 
0.811, 
0.838, 
0.856, 
0.872, 


test 
test 
test 
test 
test 


acc 
acc 
acc 
acc 
acc 


0.811, 
0.820, 
0.812, 
0.842, 
0.851, 


time 
time 
time 
time 
time 


X = test_iter._dataset.normalize_image(img) 

X = X.transpose((2, 0, 1)).expand_dims(axis=0) 
pred = nd.argmax(net(X.as_in_context(ctx[0])), axis=1) 
return pred.reshape((pred.shape[1], pred.shape[2])) 


Label2image (pred): 


colormap = nd.array(d21l.VOC_COLORMAP, ctx=ctx[0], dtype='uint8s') 


X = pred.astype('int32') 


return colormap[X, 


: | 


测 结果 ， 最 后 打印 标注 的 类 别 〈 另 见 彩 插图 20). 


Le 
16.6 
16.3 
16.5 
16.3 


sec 
sec 
sec 
sec 
sec 
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In [19]: test_images, test_labels = d2l.read_voc_images(is_train=False) 
n, imgs = 4, [] 
for i in range(n): 
crop_rect = (0, 0, 480, 320) 
X = image. fixed_crop(test_images[i], *crop_rect) 
pred = label2image(predict(X) ) 
imgs += [X, pred, image. fixed_crop(test_lLabels[i], *crop_rect) ] 
d21l.show_images(imgs[::3] + imgs[1::3] + imgs[2::3], 3, n); 


小 结 
© 可 以 通过 矩阵 来 法 来 实现 卷 积 运算 。 
© 全 卷 积 网 络 先 使 用 卷 积 神经 网 络 抽取 图 像 特征 ， 然 后 通过 1 x 1 卷 积 层 将 通道 数 变换 为 类 别 
个 数 ， 最 后 通过 转 置 卷 积 层 将 特征 图 的 高 和 宽 变 换 为 输入 图 像 的 尺寸 ， 从 而 输出 每 个 像素 的 
类 别 。 


在 全 卷 积 网 络 中 ， 可 以 将 转 置 卷 积 层 初 始 化 为 双 线 性 插值 的 上 采样 。 


练习 
(1) 用 给 阵 乘 法 来 实现 卷 积 运算 是 否 高 效 ? 为 什么 ? 
(2) 如 果 将 转 置 卷 积 层 改 用 Xavier 随机 初始 化 ， 结 果 有 什么 变化 ? 
(3) 调节 超 参 数 ， 能 进一步 提升 模型 的 精度 吗 ? 
(4) 预测 测试 图 像 中 所 有 像素 的 类 别 。 
(5) 全 卷 积 网 络 的 论文 中 还 使 用 了 卷 积 神经 网 络 的 某 些 中 间 层 的 输出 四。 试 着 实现 这 个 想法 。 





“298。 第 9 章 计算 机 视觉 


9.11 样式 迁移 


如 果 你 是 一 位 摄影 爱好 者 ， 也 许 接触 过 滤 锐 。 它 能 改变 照片 的 颜色 样 
式 ， 从 而 使 风景 照 更 加 锐利 或 者 令 人 像 更 加 美 日 。 但 一 个 滤 镜 通 第 只 能 改 
变 上 照片 的 条 个 方面 。 如 果 要 照片 达到 理想 中 的 样式 ， 经 党 需要 壬 试 大 量 不 
同 的 组 合 ， 其 复杂 程度 不 亚 于 模型 调 参 。 


在 本 节 中 ， 我 们 将 介绍 如 何 使 用 卷 积 神经 网 络 目 动 将 茶 图 像 中 的 样式 应 用 在 另 一 图 像 之 
上 ， 即 样式 迁移 (style transfer)  。 这 里 我 们 需要 两 张 输入 图 像 ， 一 张 是 内 容 图 像 ， 另 一 张 
是 样式 图 像 ， 我 们 将 使 用 神经 网 络 修改 内 容 图 像 使 其 在 样式 上 接近 样式 图 像 。 图 9-12 中 的 内 
容 图 像 为 本 书 作者 在 西雅图 郊区 的 雷 尼 尔 山 国 家 公园 (Mount Rainier National Park) 拍摄 的 风 
景 照 ， 而 样式 图 像 则 是 一 幅 主 题 为 秋天 橡树 的 油画 。 最 终 输出 的 合成 图 像 在 保留 了 内 容 图 像 中 
物体 主体 形状 的 情况 下 应 用 了 样式 图 像 的 油画 笔触 ， 同 时 也 让 整体 颜色 更 加 鲜艳 。 





合成 图 像 





样式 图 像 





图 9-12 输入 内 容 图 像 和 样式 图 像 ， 输 出 样式 迁移 后 的 合成 图 像 〈( 男 见 彩 插图 21) 


9.11.1 Faiz 


图 9-13 用 一 个 例子 来 曾 述 基于 郑 积 神经 网 络 的 样式 迁移 方法 。 首 先 ， 我 们 初始 化 合成 图 
像 ， 例 如 将 其 初始 化 成 内 容 图 像 。 该 合成 图 像 是 样式 迁移 过 程 中 唯一 需要 更 新 的 变量 ， 即 样式 
迁移 所 需 迭 代 的 模型 参数 。 然 后 ， 我 们 选择 一 个 预 训练 的 郑 积 神经 网 络 来 抽取 图 像 的 特征 ， 其 
中 的 模型 参数 在 训练 中 无 须 更 新 。 深 度 卷 积 神经 网 络 凭借 多 个 层 逐 级 抽取 图 像 的 特征 。 我 们 可 
以 选择 其 中 东 些 层 的 输出 作为 内 容 特征 或 样式 特征 。 以 图 9-13 为 例 ， 这 里 选取 的 预 训练 的 神 
经 网 络 含有 3 个 郑 积 层 ， 其 中 第 二 层 输出 图 像 的 内 容 特征 ， 而 第 一 层 和 第 三 层 的 输出 被 作为 图 
像 的 样式 特征 。 接 下 来 ， 我 们 通过 正 同 传播 〈 实 线 策 头 方 问 ) 计算 样式 迁移 的 损失 函数 ， 并 通 
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过 反 回 传播 〈 虚 线 箭 头 方向 ) 友 代 模型 参数 ， 即 不 断 更 新 合成 图 像 。 样 式 迁 移 常 用 的 损失 函数 
由 3 部 分 组 成 : A BARA (content loss) 使 合成 图 像 与 内 容 图 像 在 内 容 特征 上 接近 ， 样 式 损 失 
(style loss) 令 合 成 图 像 与 样式 图 像 在 样式 特征 上 接近 ， 而 总 变 差 损失 (total variation loss) 则 
有 助 于 减少 合成 图 像 中 的 噪点 。 最 后 ， 当 模型 训练 结束 时 ， 我 们 输出 样式 迁移 的 模型 参数 ， 即 
得 到 最 终 的 合成 图 像 。 


内 容 
图 像 





总 变 差 损失 


图 9-13 ”基于 卷 积 神经 网 络 的 样式 迁移 。 实 线 箭头 和 虚线 箭头 
分 别 表 示 正 同 传播 和 反问 传播 〈 男 见 彩 插 图 22) 


下 和 面 ， 我 们 通过 实验 来 进一步 了 解 样式 迁移 的 技术 细节 。 实 验 需 要 用 到 一 些 导 入 的 包 或 
模块 。 


In [1]: %matplotlib inline 
import d2Lzh as d2L 
from mxnet import autograd, gluon, image, init, nd 
from mxnet.gluon import model_zoo, nn 


import time 


9.11.2 读 取 内 容 图 像 和 样式 图 像 
首先 ， 我 们 分 别 读 取 内 容 图 像 和 样式 图 像 。 从 打印 出 的 图 像 坐标 轴 可 以 看 出 ， 它 们 的 尺寸 
并 不 一 样 ( 另 见 彩 插图 23 和 图 24)。 


In [2]: d2l.set_figsize() 
content_img = image.imread('../img/rainier.jpg') 


d21l.plt.imshow(content_img.asnumpy()); 
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In [3]: style_img = image.imread('../img/autumn_oak.jpg') 
d21L.plt.imshow(style_img.asnumpy () ) ; 


ae. 
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9.11.3” 预 处 理 和 后 处 理 图 像 


下 面 定 义 图 像 的 预 处 理 函 数 和 后 处 理 函 数 。 预 处 理 函 数 preprocess 对 输入 图 像 在 
RGB 三 个 通道 分 别 做 标准 化 ， 并 将 结果 变换 成 卷 积 神经 网 络 接受 的 输入 格式 。 后 处 理 函 数 
postprocess 则 将 输出 图 像 中 的 像素 值 还 原 回 标准 化 之 前 的 值 。 由 于 图 像 打印 函数 要 求 每 个 
像素 的 浮 点 数值 在 0 到 1 之 间 ， 我 们 使 用 clip 函数 对 小 于 0 和 大 于 1 的 值 分 别 取 0 和 1. 


In [4]: rgb_mean = nd.array([0.485, 0.456, 0.406]) 
rgb_std = nd.array([0.229, 0.224, 0.225]) 


def preprocess(img, image_shape) : 
img = image.imresize(img, *ximage_shape) 
img = (img.astype('float32') / 255 - rgb_mean) / rgb_std 
return img.transpose((2, 0, 1)).expand_dims(axis=0) 


def postprocess(img): 
img = img[0].as_in_context(rgb_std.context) 
return (img.transpose((1, 2, 0)) * rgb_std + rgb_mean).clip(0, 1) 
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9.11.4 抽取 特征 
我 们 使 用 基于 ImageNet 数据 集 预 训练 的 VGG-19 模型 来 抽取 图 像 特征 。 


In [5]: pretrained_net = model_zoo.vision.vgg19(pretrained=True) 


为 了 抽取 图 像 的 内 容 特征 和 样式 特征 ， 我 们 可 以 选择 VGG 网 络 中 某 些 层 的 输出 。 一 般 来 
说 ， 越 靠近 输入 层 的 输出 越 容易 抽取 图 像 的 细节 信息 ， 反 之 则 越 容易 抽取 图 像 的 全 局 信息 。 为 
了 避免 合成 图 像 过 多 保留 内 容 图 像 的 细节 ， 我 们 选择 VGG 较 靠 近 输 出 的 层 ， 也 称 内 容 层 ， 来 
输出 图 像 的 内 容 特征 。 我 们 还 从 VGG 中 选择 不 同 层 的 输出 来 匹配 局 部 和 全 局 的 样式 ， 这 些 层 
也 叫 样式 层 。 在 5.7 节 中 我 们 曾 介 绍 过 ，VGG 网 络 使 用 了 5 个 卷 积 块 。 实 验 中 ， 我 们 选择 第 
四 卷 积 块 的 最 后 一 个 卷 积 层 作为 内 容 层 ， 以 及 每 个 卷 积 块 的 第 一 个 卷 积 层 作为 样式 层 。 这 些 层 
的 索引 可 以 通过 打印 pretrained_net 实例 来 获取 。 


In [6]: style_layers, content_layers = [0, 5, 10, 19, 28], [25] 


在 抽取 特征 时 ， 我 们 只 需要 用 到 VGG 从 输入 层 到 最 靠近 输出 层 的 内 容 层 或 样式 层 之 间 的 
所 有 层 。 下 面 构建 一 个 新 的 网 络 net， 它 只 保留 需要 用 到 的 VGG 的 所 有 层 。 我 们 将 使 用 net 
来 抽取 特征 。 


In [7]: net = nn.Sequential() 
for i in range(max(content_layers + style_layers) + 1): 
net.add(pretrained_net.features[7]) 


给 定 输入 X， 如 果 简 单调 用 前 癌 计 算 net(X) ， 只 能 获得 最 后 一 层 的 输出 。 由 于 我 们 还 需 
要 中 间 层 的 输出 ， 因 此 这 里 我 们 逐 层 计算 ， 并 保留 内 容 层 和 样式 层 的 输出 。 


In [8]: def extract_features(X, content_layers, style_layers): 
contents = [] 
styles = [] 
for i in range(len(net)): 
X = net[i] (X) 
if i in style_layers: 
styles.append(X) 
if i in content_layers: 
contents. append (X) 
return contents, styles 


下 面 定义 两 个 函数 ， 其 中 get_contents 函数 对 内 容 图 像 抽 取 内 容 特征 ， 而 get_styles 
函数 则 对 样式 图 像 抽 取样 式 特征 。 因 为 在 训练 时 无 须 改 变 预 训练 的 VGG 的 模型 参数 ， 所 以 我 
们 可 以 在 训练 开始 之 前 就 提取 出 内 容 图 像 的 内 容 特 征 ， 以 及 样式 图 像 的 样式 特征 。 由 于 合成 图 
像 是 样式 迁移 所 需 迭 代 的 模型 参数 ， 我 们 只 能 在 训练 过 程 中 通过 调用 extract_features 函数 
来 抽取 合成 图 像 的 内 容 特征 和 样式 特征 。 

In [9]: def get_contents(image_shape, ctx): 

content_X = preprocess(content_img, image_shape) .copyto(ctx) 


contents_Y, _ = extract_features(content_X, content_layers, style_lLayers) 
return content_X, contents_Y 
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def get_styles(image_shape, ctx): 
style_X = preprocess(style_img, image_shape) .copyto(ctx) 
_, styles_Y = extract_features(style_X, content_layers, style_layers) 
return style_X, styles_Y 


9.11.5 ”定义 损失 函数 
下 面 我 们 来 描述 样式 迁移 的 损失 函数 。 它 由 内 容 损 失 、 样 式 损失 和 总 变 差 损失 3 部 分 组 成 。 


1. 内 容 损失 


与 线性 回归 中 的 损失 函数 类 似 ， 内 容 损 失 通过 平方 误差 函数 衡量 合成 图 像 与 内 容 图 像 在 内 
容 特征 上 的 差异 。 平 方 误差 函数 的 两 个 输入 均 为 extract_features 函数 计算 所 得 到 的 内 容 层 
的 输出 。 


In [10]: def content_loss(Y_hat, Y): 
return (Y_hat - Y).square().mean() 


2. 样式 损失 


样式 损失 也 一 样 通过 平方 误差 函数 衡量 合成 图 像 与 样式 图 像 在 样式 上 的 差异 。 为 了 表达 样 
式 层 输出 的 样式 ， 我 们 先 通过 extract_features 函数 计算 样式 层 的 输出 。 假 设 该 输出 的 样 
本 数 为 1， 通道 数 为 ce， 高 和 宽 分 别 为 h 和 w， 我 们 可 以 把 输出 变换 成 c íT hw FRERE., 4E 
阵 基 可 以 看 作 由 c 个 长 度 为 hw 的 向 量 XX 组成， 其 中 向 量 x; 代 表 了 通道 i 上 的 样式 特征 。 
这 些 向 量 的 格拉 姆 矩阵 (Gram matrix) XX e R™ 中 i 行列 的 元 素 x 即 向 量 x; 与 Xj 的 内 积 ， 
它 表 达 了 通道 i 和 通道 /上 样式 特征 的 相关 性 。 我 们 用 这 样 的 格拉 姆 矩阵 表达 样式 层 输出 的 样 
式 。 需 要 注意 的 是 ， 当 hw 的 值 较 大 时 ， 格 拉 姆 矩阵 中 的 元 素 容 易 出 现 较 大 的 值 。 此 外 ， 格 拉 
姆 矩阵 的 高 和 宽 皆 为 通道 数 c。 为 了 让 样式 损失 不 受 这 些 值 的 大 小 影响 ， 下 面 定 义 的 gram pki 
数 将 格拉 姆 矩阵 除 以 了 矩阵 中 元 素 的 个 数 ， 即 chw。 

In [11]: def gram(X): 

num_channels, n = X.shape[1], X.size // X.shape[1] 


X = X.reshape((num_channels, n)) 
return nd.dot(X, X.T) / (num_channels * n) 


PRB, PES HIP 7 RARA A i AB A, a ee PN RSE ER HY 
样式 层 输 出 。 这 里 假设 基于 样式 图 像 的 格拉 姆 矩阵 gram_Y 已 经 预先 计算 好 了 。 


In [12]: def style_loss(Y_hat, gram_Y): 
return (gram(Y_hat) - gram_Y).square().mean() 


3. 总 变 差 损失 


有 时 候 ， 我 们 学 到 的 合成 图 像 里 面 有 大 量 高 频 品 点 ， 即 有 特别 亮 或 者 特别 暗 的 颗粒 像素 。 
一 种 常用 的 降 品 方法 是 总 变 差 降 骂 (total variation denoising). RI x; 表示 坐标 为 (i, ]) 的 像 系 
值 ， 降 低 总 变 差 损失 
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能 够 尽 可 能 使 邻近 的 像素 值 相似 。 


In [13]: def tv_loss(Y_hat): 
return. 6.5. * {CY_hat{:, s, Ee SE = N Dati, 2, Se :]) abst). meant) . + 
CE 2, ol = Vets, t5- 2. Sabres) .e6ent)) 


4. 损失 函数 


样式 迁移 的 损失 函数 即 内 容 损 失 、 样 式 损 失 和 总 变 差 损失 的 加 权 和 。 通 过 调节 这 些 权 值 超 
参数 ， 我 们 可 以 权衡 合成 图 像 在 保留 内 容 、 迁 移 样 式 以 及 降 噪 三 方面 的 相对 重要 性 。 


In [14]: content_weight, style_weight, tv_weight = 1, le3, 10 


def compute_loss(X, contents_Y_hat, styles_Y_hat, contents_Y, styles_Y_gram): 

# 分 别 计算 内 容 损失 、 样 式 损 失 和 总 变 差 损失 

contents_l = [content_loss(Y_hat, Y) * content_weight for Y_hat, Y in zip( 
contents_Y_hat, contents_Y) ] 

styles_l = [style_loss(Y_hat, Y) * style_weight for Y_hat, Y in zip( 
styles_Y_hat, styles_Y_gram) ] 

tv_l = tv_loss(X) * tv_weight 

# 对 所 有 损失 求 和 

l = nd.add_n(*styles_l) + nd.add_n(*contents_1l) + tv_l 

return contents_l, styles_l, tv_l, l 


9.11.6 创建 和 初始 化 合成 图 像 


在 样式 迁移 中 ， 合 成 图 像 是 唯一 需要 更 新 的 变量 。 因 此 ， 我 们 可 以 定义 一 个 简单 的 模型 
GeneratedImage， 并 将 合成 图 像 视 为 模型 参数 。 模 型 的 前 癌 计 算 只 需 返 回 模型 参数 即 可 。 


In [15]: class GeneratedImage(nn.Block): 
def (init__(self, img_shape, **kwargs): 
super (GeneratedImage, self).__init__(**kwargs) 
self.weight = self.params.get('weight', shape=img_shape) 


def forward(self): 
return self.weight.data() 


下 面 ， 我 们 定义 get_inits 函数 。 该 函数 创建 了 合成 图 像 的 模型 实例 ， 并 将 其 初始 化 为 
图 像 XxX。 样式 图 像 在 各 个 样式 层 的 格拉 姆 矩阵 styles_Y_gram 将 在 训练 前 预先 计算 好 。 


In [16]: def get_inits(X, ctx, lr, styles_Y): 
gen_img = GeneratedImage(X.shape) 
gen_img.initialize(init.Constant(X), ctx=ctx, force_reinit=True) 
trainer = gluon.Trainer(gen_img.collect_params(), '‘adam', 
{'learning_rate': lr}) 
styles_Y_gram = [gram(Y) for Y in styles_Y] 
return gen_img(), styles_Y_gram, trainer 
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9.11.7 ”训练 模型 


在 训练 模型 时 ， 我 们 不 断 抽 取 合 成 图 像 的 内 容 特征 和 样式 特征 ， 并 计算 损失 函数 。 回 忆 
8.2 节 中 有 关 用 同步 函数 让 前 端 等 待 计 算 结果 的 讨论 。 由 于 我 们 每 隔 50 个 迭代 周期 才 调 用 同 
pki asscalar， 很 容易 造成 内 存 占用 过 高 ， 因 此 我 们 在 每 个 迭代 周期 都 调用 一 次 同步 函数 
waitall. 


In [17]: def train(X, contents_Y, styles_Y, ctx, lr, max_epochs, 1lr_decay_epoch): 
X, styles_Y_gram, trainer = get_inits(X, ctx, lr, styles_Y) 
for i in range(max_epochs): 
start = time.time() 
with autograd.record(): 
contents_Y_hat, styles_Y_hat = extract_features( 
X, content_layers, style_layers) 
contents_l, styles_l, tv_l, l = compute_loss( 
X, contents_Y_hat, styles_Y_hat, contents_Y, styles_Y_gram) 
Ll. backward () 
trainer.step(1) 
nd.waitall() 
if i % 50 == 0 and i != 0: 
print('epoch %3d, content loss %.2f, style loss %.2f, ' 

'TV loss %.2f, %.2f sec' 

% (1, nd.add_n(«contents_l).asscalar(), 
nd.add_n(*styles_l).asscalar(), tv_l.asscalar(), 
time.time() - start) ) 

if i % lr_decay_epoch == © and i != 0: 
trainer.set_learning-rate(trainer.learning_rate * 0.1) 
print('change lr to %.le' % trainer. learning_rate) 

return X 


下 面 我 们 开始 训练 模型 。 前 先 将 内 容 图 像 和 样式 图 像 的 高 和 宽 分 别 调整 为 150 和 225 像素 。 
合成 图 像 将 由 内 容 图 像 来 初始 化 。 


In [18]: ctx, image_shape = d2l.try_gpu(), (225, 150) 
net.collect_params().reset_ctx (ctx) 
content_X, contents_Y = get_contents(image_shape, ctx) 
_, styles_Y = get_styles(image_shape, ctx) 
output = train(content_X, contents_Y, styles_Y, ctx, 0.01, 500, 200) 


epoch 50, content loss 10.10, style loss 29.40, TV loss 3.46, 0.02 sec 
epoch 100, content loss 7.49, style loss 15.45, TV loss 3.89, 0.02 sec 
epoch 150, content loss 6.30, style loss 10.37, TV loss 4.15, 0.02 sec 
epoch 200, content loss 5.62, style loss 8.11, TV loss 4.29, 0.02 sec 
change lr to 1.0e-03 

epoch 250, content loss 5.55, style loss 7.93, TV loss 4.30, 0.02 sec 
epoch 300, content loss 5.50, style loss 7.79, TV loss 4.31, 0.02 sec 
epoch 350, content loss 5.44, style loss 7.64, TV loss 4.31, 0.01 sec 
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epoch 400, content loss 5.39, style loss 7.49, TV loss 4.32, 0.01 sec 
change lr to 1.0e-04 
epoch 450, content loss 5.38, style loss 7.47, TV loss 4.32, 0.01 sec 


下 面 我 们 将 训练 好 的 合成 图 像 保 存 起 来 。 可 以 看 到 图 9-14 中 的 合成 图 像 保留 了 内 容 图 
像 的 风景 和 物体 ， 并 同时 迁移 了 样式 图 像 的 色彩 。 因 为 图 像 尺 寸 较 小 ， 所 以 细节 上 依然 比较 
模糊 。 


In [19]: d2l.plt.imsave('../img/neural-style-1.png', postprocess(output).asnumpy()) 





图 9-14 150 x 225 尺寸 的 合成 图 像 〈 另 见 彩 插图 25) 


为 了 得 到 更 加 清晰 的 合成 图 像 ， 下 面 我 们 在 更 大 的 300 x 450 尺寸 上 训练 。 我 们 将 图 9-14 
的 高 和 宽 放 大 2 倍 ， 以 初始 化 更 大 尺寸 的 合成 图 像 。 


In [20]: image_shape = (450, 300) 
_, content_Y = get_contents(image_shape, ctx) 
_, Style_Y = get_styles(image_shape, ctx) 
X = preprocess(postprocess(output) * 255, image_shape) 
output = train(X, content_Y, style_Y, ctx, 0.01, 300, 100) 
d2l.plt.imsave('../img/neural-style-2.png', postprocess (output) .asnumpy () ) 


epoch 50, content loss 13.86, style loss 13.70, TV loss 2.37, 0.03 sec 
epoch 100, content loss 9.52, style loss 8.77, TV loss 2.65, 0.03 sec 
change Lr to 1.0e-03 

epoch 150, content loss 9.22, style loss 8.44, TV loss 2.67, 0.03 sec 
epoch 200, content loss 8.95, style loss 8.16, TV loss 2.69, 0.03 sec 
change lr to 1.0e-04 

epoch 250, content loss 8.92, style loss 8.12, TV loss 2.69, 0.03 sec 


可 以 看 到 ， 由 于 图 像 太 寸 更 大 ， 每 一 次 迭代 需要 人 花费 更 多 的 时 间 。 从 训练 得 到 的 图 9-15 
中 可 以 看 到 ， 此 时 的 合成 图 像 因 为 尺寸 更 大 ， 所 以 保留 了 更 多 的 细节 。 合 成 图 像 里 面 不 仅 有 大 
块 的 类 似 样 式 图 像 的 油画 色彩 块 ， 色 彩 块 中 甚至 出 现 了 细微 的 纹理 。 
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图 9-15 300x450 尺寸 的 合成 图 像 〈 另 见 彩 插图 26) 


© 样式 迁移 常用 的 损失 函数 由 3 部 分 组 成 : 内 容 损 失 使 合成 图 像 与 内 容 图 像 在 内 容 特 征 上 接 
近 ， 样 式 损失 令 合 成 图 像 与 样式 图 像 在 样式 特征 上 接近 ， 而 总 变 差 损失 则 有 助 于 减少 合成 图 


RP AR o 
e 可 以 通过 预 训 练 的 卷 积 神经 网 络 来 抽取 图 像 的 特征 ， 并 通过 最 小 化 损失 函数 来 不 断 更 新 合成 
图 像 。 


e 用 格拉 姆 矩阵 表达 样式 层 输 出 的 样式 。 


练习 
(1) 选择 不 同 的 内 容 和 样式 层 ， 输 出 有 什么 变化 ? 


(2) 调整 损失 函数 中 的 权 值 超 参 数 ， 输 出 是 否 保留 更 多 内 容 或 减少 更 多 唆 点 ? 
(3) 替换 实验 中 的 内 容 图 像 和 样式 图 像 ， 你 能 创作 出 更 有 趣 的 合成 图 像 吗 ? 





9.12 ”实战 Kaggle 比 赛 : 图 像 分 类 ( CIFAR-10 ) 


到 目前 为 止 ， 我们 一 直 在 用 Gluon 的 data 包 直 接 获 取 NDArray 格式 
的 图 像 数 据 集 。 然 而 ， 实 际 中 的 图 像 数据 集 往往 是 以 图 像 文件 的 形式 存在 
的 。 在 本 节 中 ， 我 们 将 从 原始 的 图 像 文 件 开 始 ， 一 步 步 整 理 、 读 取 并 将 其 
变换 为 NDArray 格式 。 


我 们 曾 在 9.1 节 中 实验 过 CIFAR-10 数据 集 。 它 是 计算 机 视觉 领域 的 一 
个 重要 数据 集 。 现 在 我 们 将 应 用 前 面 所 学 的 知识 ， 动 手 实战 CIFAR-10 图 [ej[ 
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像 分 类 问题 的 Kaggle 比赛 。 该 比赛 的 网 页 地 址 是 https://www.kaggle.com/c/cifar-10。 
图 9-16 展示 了 该 比赛 的 网 页 信息 。 为 了 便于 提交 结果 ， 请 先 在 Kaggle 网 站 上 注册 账号 。 


Bear, =~ ae CIFAR-10 - Object Recognition in Images 
Bait wh) Identify the subject of 60,000 labeled images 
al ta" ty ba 231 teams - 4 years ago 





Overview Data Discussion Leaderboard Rules 





Overview 
Description CIFAR-10 is an established computer-vision dataset used for object recognition. It is a subset of the 80 
Aiia million tiny images dataset and consists of 60,000 32x32 color images containing one of 10 object 


classes, with 6000 images per class. It was collected by Alex Krizhevsky, Vinod Nair, and Geoffrey 
Hinton. 


9-16 CIFAR-10 图 像 分 类 比赛 的 网 页 信息 。 比 赛 数 据 集 可 通过 单 击 “Data” 标 签 获取 


首先 ， 寻 入 比赛 所 需 的 包 或 模块 。 


In [1]: import d2Lzh as d21 
from mxnet import autograd, gluon, init 
from mxnet.gluon import data as gdata, loss as gloss, nn 
import os 
import pandas as pd 
import shutil 
import time 


9.12.1 获取 和 整理 数据 集 

比赛 数据 分 为 训练 集 和 测试 集 。 训 练 集 包含 5 万 张 图 像 。 测 试 集 包含 30 万 张 图 像 ， 其 中 
有 1 万 张 图 像 用 来 计 分 ， 其 他 29 万 张 不 计 分 的 图 像 是 为 了 防止 人 工 标 注 测试 集 并 提交 标注 结 
果 。 两 个 数据 集中 的 图 像 格式 都 是 png， 高 和 宽 均 为 32 像素 ， 并 含有 RGB 三 个 通道 (彩色 )。 
图 像 一 共 涵 盖 10 个 类 别 ， 分 别 为 飞机 、 汽 车 、 乌 、 猫 、 鹿 、 狗 、 青 蛙 、 马 、 船 和 卡车 。 图 9.16 
的 左上 角 展 示 了 数据 集中 部 分 飞机 、 汽 车 和 马 的 图 像 。 


1， 下 载 数据 集 
登录 Kaggle 后 ， 可 以 点 击 图 9-16 所 示 的 CIFAR-10 图 像 分 类 比赛 网 页 上 的 “Data” 标 签 ， 
并 分 别 下 载 训 练 数据 集 train.7z、 测 试 数据 集 test.7z 和 训练 数据 集 标签 trainLabels.csv。 


2. 解压 数据 集 


下 载 完 训练 数据 集 train.7z 和 测试 数据 集 test.7z 后 需要 解压 缩 。 解 压缩 后 ， 将 训练 数据 集 、 
测试 数据 集 以 及 训练 数据 集 标签 分 别 存 放 在 以 下 3 个 路 径 : 
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e .,./data/kaggle_cifar10/train/[1-50000].png ; 

e ../data/kaggle_cifar10/test/[1-300000].png ; 

e ../data/kaggle_cifar10/trainLabels.csv. 

为 方便 快速 上 手 ， 我 们 提供 了 上 述 数 据 集 的 小 规模 采样 ， 其 中 train_tiny.zip 包含 100 个 
训练 样本 ， 而 test_tiny.zip MEA 1 个 测试 样本 。 它 们 解压 后 的 文件 夹 名 称 分 别 为 train_tiny 和 
test tiny。 此 外 ， 将 训练 数据 集 标 签 的 压缩 文件 解压 ， 并 得 到 trainLabels.csv。 如 果 使 用 上 述 
Kaggle 比赛 的 完整 数据 集 ， 还 需要 把 下 面 demo 变量 改 为 False。 


In [2]: # 如 果 使 用 下 载 的 KaggLe 比 赛 的 完整 数据 集 ， 把 demo 变 量 改 为 FaLse 
demo = True 
if demo: 
import zipfile 
for f in ['train_tiny.zip', 'test_tiny.zip', 'trainLabels.csv.zip']: 
with zipfile.ZipFile('../data/kaggle_cifar10/' + f, 'r') as z: 
z.extractall('../data/kaggle_cifar10/') 


3. 整理 数据 集 


我 们 需要 整理 数据 集 ， 以 方便 训练 和 测试 模型 。 以 下 的 read_label_file 函数 将 用 来 读 
取 训 练 数 据 集 的 标签 文件 。 该 函数 中 的 参数 valid_ratio 是 验证 集 样本 数 与 原始 训练 集 样本 
数 之 比 。 


In [3]: def read_label_file(data_dir, label_file, train_dir, valid_ratio): 

with open(os.path.join(data_dir, label_file), 'r') as f: 

# BETS (EBM) i 

lines = f.readlines()[1:] 

tokens = [l.rstrip().split(',') for l in lines] 

idx_label = dict(((int(idx), label) for idx, label in tokens)) 
labels = set(idx_label.values()) 
n_train_valid = len(os.listdir(os.path.join(data_dir, train_dir))) 
n_train = int(n_train_valid * (1 - valid_ratio)) 
assert 0 < n_train < n_train_valid 
return n_train // len(labels), idx_label 


下 面 定 义 一 个 辅助 函数 ， 从 而 仅 在 路 径 不 存在 的 情况 下 创建 路 径 。 


In [4]: def mkdir_if_not_exist(path): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
if not os.path.exists(os.path.join(*path) ) : 
os.makedirs(os.path. join(*path) ) 


我 们 接 下 来 定义 reorg_train_valid 函数 来 从 原始 训练 集中 切 分 出 验证 集 。 以 valid_ 
ratio=0.1 为 例 由 于 原始 训练 集 有 50 000 张 图 像 ， 调 参 时 将 有 45 000 张 图 像 用 于 训练 并 存 
放 在 路 径 input_dir/train 下 ， 而 另外 5 000 张 图 像 将 作为 验证 集 并 存放 在 路 径 input_dir/ 
valid 下 。 经 过 整理 后 ， 同 一 类 图 像 将 被 放 在 同一 个 文件 夹 下 ， 便 于 稍 后 读 取 。 

In [5]: def reorg_train_valid(data_dir, train_dir, input_dir, n_train_per_label, 

idx_label): 


label_count = {} 
for train_file in os.listdir(os.path.join(data_dir, train_dir)): 
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idx = int(train_file.split('.')[0]) 
label = idx_label[idx] 
mkdir_if_not_exist([{data_dir, input_dir, 'train_valid', lLabel]) 
shutil.copy(os.path.join(data_dir, train_dir, train_file), 
os.path.join(data_dir, input_dir, 'train_valid', Label) ) 
if label not in Label_count or label_count[label] < n_train_per_label: 
mkdir_if_not_exist([data_dir, input_dir, 'train', label]) 
shutil.copy(os.path.join(data_dir, train_dir, train_file), 
os.path.join(data_dir, input_dir, 'train', lLabel)) 
label_count[label] = Label_count.get(label, 0) + 1 
else: 
mkdir_if_not_exist([data_dir, input_dir, 'valid', label]) 
shutil.copy(os.path.join(data_dir, train_dir, train_file), 
os.path.join(data_dir, input_dir, 'valid', label)) 


下 面 的 reorg test 函数 用 来 整理 测试 集 ， 从 而 方便 预测 时 的 读 取 。 


In [6]: def reorg test(data_dir, test_dir, input_dir): 
mkdir_if_not_exist([data_ dir, input_dir, 'test', 'unknown']) 
for test_file in os.listdir(os.path.join(data_dir, test_dir)): 
shutil.copy(os.path.join(data_dir, test_dir, test_file), 
os.path.join(data_dir, input_dir, 'test', 'unknown') ) 


最 后 ， 我 们 用 一 个 函数 分 别 调用 前 面 定 义 的 read_label_file mi. reorg_train_valid 
函数 以 及 reorg_test 函数 。 


In [7]: def reorg_cifar10_data(data_dir, label_file, train_dir, test_dir, input_dir, 
valid_ratio): 
n_train_per_label, idx_label = read_label_file(data_dir, label_file, 
train_dir, valid_ratio) 
reorg_train_valid(data_dir, train_dir, input_dir, n_train_per_lLabel, 
idx_label) 
reorg_test(data_dir, test_dir, input_dir) 


我 们 在 这 里 只 使 用 100 个 训练 样本 和 1 个 测试 样本 。 训 练 数 据 集 和 测试 数据 集 的 文件 夹 名 
称 分 别 为 train_tiny 和 test_tiny。 相 应 地 ， 我 们 仅 将 批量 大 小 设 为 1。 实际 训练 和 测试 时 应 使 用 
Kaggle 比赛 的 完整 数据 集 ， 并 将 批量 大 小 batch_size 设 为 一 个 较 大 的 整数 ， 如 128。 我 们 将 
10% 的 训练 样本 作为 调 参 使 用 的 验证 集 。 


In [8]: if demo: 


# 注意 ， 此 处 人 全 用 小 训练 集 和 小 测试 集 并 将 批量 大 小 相应 设 小 。 使 用 KaggLe 比 赛 的 完整 数据 集 时 可 
# 设 批量 大 小 为 较 大 整数 
train_dir, test_dir, batch_size = 'train_tiny', 'test_tiny', 1 
else: 
train_dir, test_dir, batch_size = 'train', 'test', 128 
data_dir, label_file = '../data/kaggle_cifar10', 'trainLabels.csv' 
input_dir, valid_ratio = 'train_valid_test', 0.1 


reorg_cifarl10_data(data_dir, label_file, train_dir, test_dir, input_dir, 
valid_ratio) 
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9.12.2 ”图像 增 广 


为 应 对 过 拟 合 ， 我 们 使 用 图 像 增 广 。 例 如 ， 加 入 transforms.RandomFlipLeftRight() Bi Ay 
随机 对 图 像 做 镜面 翻转 ， 也 可 以 通过 transforms.Normalize() 对 彩色 图 像 RGB 三 个 通道 分 
别 做 标准 化 。 下 面 列举 了 其 中 的 部 分 操作 ， 你 可 以 根据 需求 来 决定 是 否 使 用 或 修改 这 些 操作 。 


In [9]: transform_train = gdata.vision.transforms.Compose([ 

# 将 图 像 放大 成 高 和 宽 各 为 4 像素 的 正方 形 

gdata.vision.transforms.Resize(40) , 

# ”随机 对 高 和 宽 各 为 4 像素 的 正方 形 图 像 裁剪 出 面积 为 原 图 像 面积 0.64~1 倍 的 小 正方 形 ， 再 放 缩 为 

# 高 和 宽 各 为 32 像 素 的 正方 形 

gdata.vision.transforms.RandomResizedCrop(32, scale=(0.64, 1.0), 

ratio=(1.0, 1.0)), 

gdata.vision.transforms.RandomFlipLeftRight() , 

gdata.vision.transforms.ToTensor(), 

# 对 图 像 的 每 个 通道 做 标准 化 

gdata.vision.transforms.Normalize([0.4914, 0.4822, 0.4465], 
[0.2023, 0.1994, 0.2010])]) 


测试 时 ， 为 保证 输出 的 确定 性 ， 我 们 仅 对 图 像 做 标准 化 。 


In [10]: transform_test = gdata.vision.transforms.Compose([ 
gdata.vision.transforms.ToTensor(), 
gdata.vision.transforms.Normalize([0.4914, 0.4822, 0.4465], 

[0.2023, 0.1994, ©.2010])]) 


9.12.3 ” 读 取 数据 集 


接 下 来 ， 可 以 通过 创建 WO 实例 来 读 取 整理 后 的 含 原始 图 像 文 件 的 数 
据 集 ， 其 中 每 个 数据 样本 包括 图 像 和 标签 。 


In [11]: # 读 取 原 始 图 像 文 件 。fLag=1 说 明 输 入 图 像 有 3 个 通道 (KE) 

train_ds = gdata.vision. ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'train'), flag=1) 

valid_ds = gdata.vision. ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'valid'), flag=1) 

train_valid_ds = gdata.vision.ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'train_valid'), flag=1) 

test_ds = gdata.vision. ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'test'), flag=1) 


我 们 在 DataLoader 中 指明 定义 好 的 图 像 增 广 操作 。 在 训练 时 ， 我 们 仅 用 验证 集 评 价 模 
型 ， 因 此 需要 保证 输出 的 确定 性 。 在 预测 时 ， 我 们 将 在 训练 集 和 验证 集 的 并 集 上 训练 模型 ， 以 
充分 利用 所 有 标注 的 数据 。 


In [12]: train_iter = gdata.DataLoader(train_ds.transform_first(transform_train), 
batch_size, shuffle=True, last_batch='keep') 
valid_iter = gdata.DataLoader(valid_ds.transform_first(transform_test), 
batch_size, shuffle=True, Last_batch='keep') 

train_valid_iter = gdata.DataLoader (train_valid_ds.transform_first( 
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transform_train), batch_size, shuffle=True, last_batch='keep') 
test_iter = gdata.DataLoader(test_ds.transform_first(transform_test) ， 
batch_size, shuffle=False, last_batch='keep') 


9.12.4 ENRE 
与 5.11 节 中 的 实现 稍 有 不 同 ， 这 里 基于 HybridBlock 类 构建 残 差 块 。 这 是 为 了 提升 执行 效率 。 


In [13]: class Residual(nn.HybridBlock): 
def __init__(self, num_channels, use_1xlconv=False, strides=1, **kwargs): 
super (Residual, self).__init__(**kwargs) 
self.convl = nn.Conv2D(num_channels, kernel_size=3, padding=1, 
strides=strides) 
self.conv2 = nn.Conv2D(num_channels, kernel_size=3, padding=1) 
if use_1xlconv: 
self.conv3 = nn.Conv2D(num_channels, kernel_size=1, 
strides=strides) 
else: 
self.conv3 = None 
self.bnl1 = nn.BatchNorm() 
self.bn2 = nn.BatchNorm() 


def hybrid_forward(self, F, X): 
Y = F.relu(self.bn1i(self.conv1(X) )) 
Y = self.bn2(self.conv2(Y) ) 
if self.conv3: 
X = self.conv3(X) 
return F.relu(Y + X) 


下 面 定 义 ResNet-18 模型 。 


In [14]: def resnet18(num_classes): 
net = nn.HybridSequential() 
net.add(nn.Conv2D(64, kernel_size=3, strides=1, padding=1), 
nn.BatchNorm(), nn.Activation('relu')) 


def resnet_block(num_channels, num_residuals, first_block=False): 
blk = nn.HybridSequential() 
for i in range(num_residuals): 
if i == 0 and not first_block: 
blk.add(Residual(num_channels, use_1xlconv=True, strides=2) ) 
else: 
blLk.add(Residual(num_channelLs) ) 
return blk 


net.add(resnet_block(64, 2, first_block=True) , 
resnet_block(128, 2), 
resnet_block(256, 2), 
resnet_block(512, 2)) 
net.add(nn.GlobalAvgPool2D(), nn.Dense(num_classes) ) 


return net 
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CIFAR-10 图 像 分 类 问题 的 类 别 个 数 为 10。 我 们 将 在 训练 开始 前 对 模型 进行 Xavier 随机 初始 化 。 


In [15]: def get_net(ctx): 
num_classes = 10 
net = resnet18(num_classes) 
net. initialize(ctx=ctx, init=init.Xavier() ) 
return net 


loss = gloss.SoftmaxCrossEntropyLoss() 


9.12.5 ”定义 训练 函数 


我 们 将 根据 模型 在 验证 集 上 的 表现 来 选择 模型 并 调节 超 参数 。 下 面 定 义 了 模型 的 训练 函数 
train。 我 们 记录 了 每 个 迭代 周期 的 训练 时 间 ， 这 有 助 于 比较 不 同 模型 的 时 间 开 销 。 


In [16]: def train(net, train_iter, valid_iter, num_epochs, lr, wd, ctx, lr_period, 
Llr_decay): 
trainer = gluon.Trainer(net.collect_params(), 'sgd', 
{'learning_rate': lr, 'momentum': 0.9, 'wd': wd}) 
for epoch in range(num_epochs) : 
train_l_sum, train_acc_sum, n, start = 0.0, 0.0, 0, time.time() 
if epoch > 0 and epoch % Lr_period == 
trainer.set_learning_rate(trainer.learning_rate * lr_decay) 
for X, y in train_iter: 
y = y.astype('float32').as_in_context (ctx) 
with autograd.record(): 
y_hat = net(X.as_in_context (ctx) ) 
l = loss(y_hat, y).sum() 
L. backward () 
trainer.step(batch_size) 
train_l_sum += l.asscalar() 


train_acc_sum += (y_hat.argmax(axis=1) == y).sum().asscalar() 
n += y.size 
time_s = "time %.2f sec" % (time.time() - start) 


if valid_iter is not None: 
valid_ace = d2l.evaluate_accuracy(valid_iter, net, ctx) 
epoch_s = ("epoch %d, loss %f, train acc %f, valid acc %f, " 
% (epoch + 1, train _l_sum / n, train_acc_sum / n, 
valid_acc) ) 
else: 
epoch_s = ("epoch %d, loss %f, train acc %f, " % 
(epoch + 1, train_l_sum / n, train_acc_sum / n)) 
print(epoch_s + time_s + ', lr ' + str(trainer.learning_rate) ) 


9.12.6 ”训练 模型 


现在 ， 我 们 可 以 训练 并 验证 模型 了 。 下 面 的 超 参 数 都 是 可 以 调节 的 ， 如 增加 友人 代 周 期 等 。 
由 于 lr_period 和 lr_decay 分 别 设 为 80 和 0.1， 优 化 算法 的 学 习 率 将 在 每 80 MARIA 
Axe 0.1。 简 单 起 见 ， 这 里 仅 训 练 1 个 迭代 周期 。 
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In [17]: ctx, num_epochs, ir, wd = d2l.try_gpu(), 1, 0.1, 5e-4 
lr_period, lr_decay, net = 80, 0.1, get_net(ctx) 
net. hybridize() 
train(net, train_iter, valid_iter, num_epochs, lr, wd, ctx, lr_period, 
Llr_decay) 


epoch 1, loss 5.842191, train acc 0.077778, valid acc 0.100000, time 1.50 sec, lr 0.1 


9.12.7 ”对 测试 集 分 类 并 在 Kaggle 提 交 结 果 


得 到 一 组 满意 的 模型 设计 和 超 参 数 后， 我们 使 用 所 有 训练 数据 集 ( 含 验证 集 〉 重新 训练 模 
型 ， 并 对 测试 集 进行 分 类 。 
In [18]: net, preds = get_net(ctx), [] 
net. hybridize() 
train(net, train_valid_iter, None, num_epochs, lr, wd, ctx, lr_period, 
Llr_decay) 


for X, _ in test_iter: 
y_hat = net(X.as_in_context (ctx) ) 
preds.extend(y_hat.argmax(axis=1) .astype(int) .asnumpy () ) 
sorted_ids = list(range(1, len(test_ds) + 1)) 
sorted_ids.sort(key=lambda x: str(x)) 
df = pd.DataFrame({'id': sorted_ids, 'label': preds}) 
df['label'] = df['label'].apply(lambda x: train_valid_ds.synsets[x]) 
df.to_csv('submission.csv', index=False) 


epoch 1, loss 6.475995, train acc 0.050000, time 1.27 sec, lr 0.1 


执行 完 上 述 代码 后 ， 我 们 会 得 到 一 个 submission.csv 文件 。 这 个 文件 符合 Kaggle 比赛 要 求 
的 提交 格式 。 提 交 结 果 的 方法 与 3.16 节 中 的 类 似 。 


小 结 
。 可 以 通过 创建 ImageFolderDataset 实例 来 读 取 含 原始 图 像 文件 的 数据 集 。 
© 可 以 应 用 卷 积 神经 网 络 、 图 像 增 广 和 混合 式 编程 来 实战 图 像 分 类 比赛 。 


练习 

(1) 使 用 Kaggle 比赛 的 完整 CIFAR-10 数据 集 。 把 批量 大 小 batch_size 和 迭代 周期 数 num_ 
epochs 分 别 改 为 128 和 300。 可 以 在 这 个 比赛 中 得 到 什么 样 的 准确 率 和 名 次 ? 

(2) 如 果 不 使 用 图 像 增 广 的 方法 能 得 到 什么 样 的 准确 率 ? 

(3) 扫 码 直达 讨论 区 ， 在 社区 交流 方法 和 结果 。 你 能 发 据 出 其 他 更 好 的 技巧 吗 ? 





A 
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913 ”实战 Kaggle 比 赛 : 狗 的 品种 识别 ( ImageNet Dogs ) 


我 们 将 在 本 节 动 手 实战 Kaggle 比赛 中 的 狗 的 品种 识别 问题 。 该 比赛 
的 网 页 地 址 是 https://www.kaggle.com/c/dog-breed-identification. 


在 这 个 比赛 中 ， 将 识别 120 类 不 同 品种 的 狗 。 这 个 比赛 的 数据 集 实际 


上 是 著名 的 ImageNet 的 子 集 数据 集 。 和 9.12 节 的 CIFAR-10 数据 集中 的 
图 像 不 同 ，ImageNet 数据 集中 的 图 像 更 高 更 宽 ， 且 尺寸 不 一 。 


图 9-17 展示 了 该 比赛 的 网 页 信息 。 为 了 便于 提交 结果 ， 请 先 在 Kaggle 
网 站 上 注册 账号 。 





Dog Breed Identification 


Determine the breed of a dog in an image 


Kaggle - 1.286 teams . 4 months ago 


Overview Data Kernels Discussion Leaderboard Rules 


一 一 一 一 一 一 一 一 


Overview 


Description | Who'sa good dog? Who likes ear scratches? Well, it seems those fancy deep neural networks don't have 
` all the answers. However, maybe they can answer that ubiquitous question we all ask when meeting a 


Evaluation four-legged stranger: what kind of good pup is that? 


In this playground competition, you are provided a strictly canine subset of ImageNet in order to practice 
fine-grained image categorization. How well you can tell your Norfolk Terriers from your Norwich 
Terriers? With 120 breeds of dogs and a limited number training images per class, you might find the 
problem more, err, ruff than you anticipated. 





图 9-17 狗 的 品种 识别 比赛 的 网 页 信息 。 比 赛 数 据 集 可 通过 点 击 “Data” 标 签 获取 
首先 ， 导 入 比赛 所 需 的 包 或 模块 。 


In [1]: import collections 
import d2lzh as d2L 
import math 
from mxnet import autograd, gluon, init, nd 
from mxnet.gluon import data as gdata, loss as gloss, model_zoo, nn 
import os 
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import shutil 
import time 
import zipfile 


9.13.1 获取 和 整理 数据 集 


比赛 数据 分 为 训练 集 和 测试 集 。 训 练 集 里 包含 了 10 222 张 图 像 ， 测 试 集 里 包含 了 10 357 
张 图 像 。 两 个 数据 集中 的 图 像 格 式 都 是 JPEG。 这 些 图 像 都 含有 RGB 三 个 通道 (彩色 )， 高 和 
宽 的 大 小 不 一 。 训 练 集中 狗 的 类 别 共有 120 种 ， 如 拉 布 拉 多 、 贯 宾 、 腊 肠 、 萨 摩 耶 、 哈 士 奇 、 
吉娃娃 和 约克 夏 等 。 


1. 下 载 数据 集 


登录 Kaggle 后 ， 我 们 可 以 点 击 图 9-17 所 示 的 狗 的 品种 识别 比赛 网 页 上 的 “Data” 标 签 ， 
并 分 别 下 载 训练 数据 集 train.zip、 测 试 数据 集 test.zip 和 训练 数据 集 标签 label.csv.zip。 下 载 完成 
后 ， 将 它们 分 别 存放 在 以 下 3 个 路 径 : 


e ../data/kaggle_dog/train.zip ; 

e 6../data/kaggle_dog/test.zip ; 

e ../data/kaggle_dog/labels.csv.zip. 

为 方便 快速 上 手 ， 我 们 提供 了 上 述 数据 集 的 小 规模 采样 train valid test tiny.zip. WR BE 
用 上 述 Kaggle 比赛 的 完整 数据 集 ， 还 需要 把 下 面 demo 变量 改 为 False。 


In [2]: # 如 果 使 用 下 载 的 Kaggle 比 赛 的 完整 数据 集 ， 把 demo 变 量 改 为 False 


demo = True 


data_dir = '../data/kaggle_dog' 
if demo: 

zipfiles = ['train_valid_test_tiny.zip' ] 
else: 


zipfiles = ['train.zip', 'test.zip', 'labels.csv.zip'] 
for f in zipfiles: 


with zipfile.ZipFile(data_dir + '/' + f, 'r') as z: 
z.extractall(data_dir) 


2. 整理 数据 集 


我 们 定义 下 面 的 reorg_train_valid 函数 来 从 Kaggle 比赛 的 完整 原始 训练 集中 切 分 出 验 
证 集 。 该 函数 中 的 参数 valid_ratio 指 验 证 集中 每 类 狗 的 样本 数 与 原始 训练 集中 数量 最 少 一 


类 的 狗 的 样本 数 〔66》 之 比 。 经 过 整理 后 ， 同 一 类 狗 的 图 像 将 被 放 在 同一 个 文件 夹 下 ， 便 于 箭 
后 读 取 。 


In [3]: def reorg_train_valid(data_dir, train_dir, input_dir, valid_ratio, idx_label): 
# 训练 集中 数量 最 少 一 类 的 狗 的 样本 数 
min_n_train_per_label = ( 


collections.Counter(idx_label.values()).most_ common()[:-2:-1][90][1]) 
# 验证 集中 每 类 狗 的 样本 数 


n_valid_per_label = math.floor(min_n_train_per_label x valid_ratio) 
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label count = {} 
for train_file in os.listdir(os.path.join(data_dir, train_dir)): 
idx = train_file.split('.') [0] 
label = idx_label[idx] 
d2l.mkdir_if_not_exist([data_dir, input_dir, 'train_valid', label]) 
shutil.copy(os.path.join(data_dir, train_dir, train_file), 
os.path.join(data_dir, input_dir, 'train_valid', Label)) 
if label not in label_count or label_count[label] < n_valid_per_label: 
d2l.mkdir_if_not_exist([data_dir, input_dir, 'valid', lLabel]) 
shutil.copy(os.path.join(data_dir, train_dir, train_file), 
os.path.join(data_dir, input_dir, 'valid', label)) 
label_count[label] = lLabel_count.get(label, 0) + 1 
else: 
d21l.mkdir_if_not_exist([data_dir, input_dir, 'train', lLabel]) 
shutil.copy(os.path.join(data_dir, train_dir, train_file), 
os.path.join(data_dir, input_dir, ‘train', label)) 


下 面 的 reorg_dog_data 函数 用 来 读 取 训 练 数据 标签 、 切 分 验证 集 并 整理 测试 集 。 


In [4]: def reorg_dog_data(data_dir, label_file, train_dir, test_dir, input_dir, 
valid_ratio): 
# 读 取 训练 数据 标签 
with open(os.path.join(data_dir, label_file), 'r') as f: 
# 跳 过 文件 头 行 〈 栏 名 称 ) 
lines = f.readlines()[1:] 
tokens = [l.rstrip().split(',') for L in lines] 
idx_label = dict(((idx, label) for idx, label in tokens)) 
reorg_train_valid(data_dir, train_dir, input_dir, valid_ratio, idx_label) 
# 整理 测试 集 
d21l.mkdir_if_not_exist([data_dir, input_dir, 'test', '‘unknown']) 
for test_file in os.listdir(os.path.join(data_dir, test_dir)): 
shutil.copy(os.path.join(data_dir, test_dir, test_file), 
os.path.join(data_dir, input_dir, 'test', 'unknown')) 


因为 我 们 在 这 里 使 用 了 小 数据 集 ， 所 以 将 批量 大 小 设 为 1。 在 实际 训练 和 测试 时 ， 我 们 应 
使 用 Kaggle 比赛 的 完整 数据 集 并 调用 reorg_dog_data 函数 来 整理 数据 集 。 相 应 地 ， 我 们 也 
需要 将 批量 大 小 batch_size 设 为 一 个 较 大 的 整数 ， 如 128。 


In [5]: if demo: 
# 注意 ， 此 MM 束 用 小 数据 集 并 将 批量 大 小 由 应 设 小 。 使 用 Kaggle 比 赛 的 完整 数据 集 时 可 设 批量 大 小 
# 为 较 大 整数 
input_dir, batch_size = 'train_valid_test_tiny', 1 
else: 
tapet file, train_dir, test_dir = 'labels.csv', 'train', ‘test' 
input_dir, batch_size, valid_ratio = 'train_valid_test', 128, 0.1 
reorg_dog_ data(data_dir, label_file, train_dir, test_dir, input_dir, 
valid_ratio) 


9.13.2 图 像 增 广 
本 节 比 赛 的 图 像 尺 寸 比 9.12 节 中 的 更 大 。 这 里 列举 了 更 多 可 能 有 用 的 图 像 增 广 操作 。 
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In [6]: transform_train = gdata.vision.transforms.Compose([ 
# ”随机 对 图 像 裁 剪 出 面积 为 原 图 像 面 积 0.08~1 倍 、 且 高 和 宽 之 比 在 3/4~4/3 的 图 像 ， 再 放 缩 为 高 和 
# 宽 均 为 224 像 素 的 新 图 像 
gdata.vision.transforms.RandomResizedCrop(224, scale=(0.08, 1.0), 
ratio=(3.0/4.0, 4.0/3.0)), 
gdata.vision.transforms.RandomFlipLeftRight() , 
# 随机 变化 亮度 、 对 比 度 和 饱和 度 
gdata.vision.transforms.RandomColorJitter(brightness=0.4, contrast=0.4, 
saturation=0.4), 
# 随机 加 噪声 
gdata.vision.transforms.RandomLighting(0.1), 
gdata.vision.transforms.ToTensor(), 
# 对 图 像 的 每 个 通道 做 标准 化 
gdata.vision.transforms.Normalize([0.485, 0.456, 0.406], 
[0.229, 0.224, 0.225])]) 


测试 时 ， 我 们 只 使 用 确定 性 的 图 像 预 处 理 操 作 。 


In [7]: transform_test = gdata.vision.transforms .Compose([ 
gdata.vision.transforms.Resize(256) , 
# 将 图 像 中 央 的 高 和 宽 均 为 224 的 正方 形 区 域 裁剪 出 来 
gdata.Vvision.transforms .CenterCrop(224) ， 
gdata.vision.transforms.ToTensor() ， 
gdata.vision.transforms.Normalize([0.485, 0.456, 0.406], 
[0.229, 0.224, ©.225])]) 


9.13.3” 读 取 数 据 集 


和 9.12 节 一 样 ， 我 们 创建 ImageFolderDataset 实例 来 读 取 整 理 后 的 含 原 始 图 像 文件 的 
数据 集 。 


In [8]: train_ds = gdata.vision.ImageFolderDataset ( 

os.path.join(data_dir, input_dir, 'train'), flag=1) 

valid_ds = gdata.vision.ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'valid'), flag=1) 

train_valid_ds = gdata.vision.ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'train_valid'), flag=1) 

test_ds = gdata.vision. ImageFolderDataset ( 
os.path.join(data_dir, input_dir, 'test'), flag=1) 


这 里 创建 DataLoader 实例 的 方法 也 与 9.12 节 中 的 相同 。 


In [9]: train_iter = gdata.DataLoader(train_ds.transform_first(transform_train), 

batch_size, shuffle=True, last_batch='keep') 

valid_iter = gdata.DataLoader(valid_ds.transform_first(transform_test) , 
batch_size, shuffle=True, last_batch='keep' ) 

train_valid_iter = gdata.DataLoader(train_valid_ds.transform_first( 

transform_train), batch_size, shuffle=True, last_batch='keep') 

test_iter = gdata.DataLoader(test_ds.transform_first(transform_test) , 

batch_size, shuffle=False, lLast_batch='keep') 
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9.13.4 ”定义 模型 


这 个 比赛 的 数据 集 属于 ImageNet 数据 集 的 子 集 ， 因 此 我 们 可 以 使 用 9.2 节 中 介绍 的 思路 ， 
选用 在 ImageNet 完整 数据 集 上 预 训练 的 模型 来 抽取 图 像 特征 ， 以 作为 自 定义 小 规模 输出 网 络 
的 输入 。Gluon 提供 了 丰富 的 预 训练 模型 ， 这 里 以 预 训 练 的 ResNet-34 模型 为 例 。 由 于 比赛 数 
据 集 属于 预 训练 数据 集 的 子 集 ， 因 此 我 们 直接 复 用 预 训 练 模型 在 输出 层 的 输入 ， 即 抽取 的 特 
征 。 然 后 ， 我 们 可 以 将 原 输出 层 蔡 换 成 自 定 义 的 可 训练 的 小 规模 输出 网 络 ， 如 两 个 串联 的 全 连 
接 层 。 与 9.2 节 中 的 实验 不 同 ， 这 里 不 再 训练 用 于 抽取 特征 的 预 训练 模型 : 这样 既 节 省 了 训练 
时 间 ， 又 省 去 了 存储 其 模型 参数 的 梯度 的 空间 。 


需要 注意 的 是 ， 我 们 在 图 像 增 广 中 使 用 了 ImageNet 数据 集 上 RGB 三 个 通道 的 均值 和 标准 
差 做 标准 化 ， 这 和 预 训练 模型 所 做 的 标准 化 是 一 致 的 。 


In [10]: def get_net(ctx): 
finetune_net = model_zoo.vision. resnet34_v2(pretrained=True) 
# 定义 新 的 输出 网 络 
finetune_net.output_new = nn.HybridSequential(prefix='') 
finetune_net.output_new.add(nn.Dense(256, activation='relu')) 
# 120 是 输出 的 类 别 个 数 
finetune_net.output_new.add(nn.Dense(120) ) 
# 初始 化 输出 网 络 
finetune_net.output_new.initialize(init.Xavier(), ctx=ctx) 
# 把 模型 参数 分 配 到 内 存 或 显存 上 
finetune_net.collect_params().reset_ctx (ctx) 
return finetune_net 


在 计算 损失 时 ， 我 们 先 通过 成 员 变量 features 来 获取 预 训 练 模型 输出 层 的 输入 ， 即 抽取 
的 特征 。 然 后 ， 将 该 特征 作为 自 定义 的 小 规模 输出 网 络 的 输入 ， 并 计算 输出 。 


In [11]: loss = gloss.SoftmaxCrossEntropyLoss() 


def evaluate_loss(data_iter, net, ctx): 

l_sum, n = 0.0, 0 

for X, y in data_iter: 
y = y.as_in_context (ctx) 
output_features = net. features(X.as_in_context (ctx) ) 
outputs = net.output_new(output_features) 
l_sum += Loss(outputs, y).sum().asscalar() 
n += y.size 

return l_sum / n 


9.13.5 MIF we 


我 们 将 依赖 模型 在 验证 集 上 的 表现 来 选择 模型 并 调节 超 参数 。 模 型 的 训练 函数 train 只 
训练 自 定 义 的 小 规模 输出 网 络 。 
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In [12]: def train(net, train_iter, valid_iter, num_epochs, lr, wd, ctx, lr_period, 


lr_decay): 


# 只 训练 自 定义 的 小 规模 输出 网 络 


trainer = gluon.Trainer(net.output_new.collect_params(), 'sgd', 


for 


9.13.6 ”训练 模型 


{'learning_rate': lr, 'momentum': 0.9, 'wd': wd}) 

epoch in range(num_epochs) : 
train_l_sum, n, start = 0.0, 0, time.time() 
if epoch > © and epoch % lr_period == Q: 

trainer.set_learning_rate(trainer.learning_rate * lr_decay) 
for X, y in train_iter: 

y = y.as_in_context (ctx) 

output_features = net. features(X.as_in_context(ctx) ) 

with autograd.record(): 

outputs = net.output_new(output_features) 
l = loss(outputs, y).sum() 

L.backward() — 

trainer.step(batch_size) 

train_l_sum += l.asscalar() 

n += y.size 
time_s = "time %.2f sec" % (time.time() - start) 
if valid_iter is not None: 

valid_loss = evaluate_loss(valid_iter, net, ctx) 

epoch_s = ("epoch %d, train loss %f, valid loss %f, " 

% (epoch + 1, train_l_sum / n, valid_loss)) 

else: 

epoch_s = ("epoch %d, train loss %f, " 

% (epoch + 1, train_l_sum / n)) 

print(epoch_s + time_s + ', lr ' + str(trainer.learning_rate) ) 


现在 ， 我 们 可 以 训练 并 验证 模型 了 。 以 下 超 参 数 都 是 可 以 调节 的 ， 如 增加 迭代 周期 等 。 由 于 
Lr_period 和 Lr_decay 分 别 设 为 10 和 0.1， 优 化 算法 的 学 习 率 将 在 每 10 个 迭代 周期 后 自 乘 0.1. 


In [13]: ctx, num_epochs, lr, wd = d2l.try_gpu(), 1, 0.01, le-4 
lr_period, lr_decay, net = 10, 0.1, get_net(ctx) 


net. hybridize() 


train(net, train_iter, valid_iter, num_epochs, lr, wd, ctx, lr_period, 


Llr_decay) 


epoch 1, train loss 5.236342, valid loss 4.777502, time 1.83 sec, lr 0.01 


9.13.7 ”对 测试 集 分 类 并 在 Kaggle 提 交 结 果 


得 到 一 组 满意 的 模型 设计 和 超 参数 后 ， 我 们 使 用 全 部 训练 数据 集 〈 含 验证 集 ) 重新 训练 模 
型 ， 并 对 测试 集 分 类 。 注 意 ， 我 们 要 用 刚 训练 好 的 输出 网 络 做 预测 。 
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In [14]: 


epoch 1, 


net = get_net(ctx) 

net. hybridize() 

train(net, train_valid_iter, None, num_epochs, lr, wd, ctx, lr_period, 
Llr_decay) 


preds = [] 
for data, label in test_iter: 
output_features = net. features(data.as_in_context(ctx) ) 
output = nd.softmax(net.output_new(output_features) ) 
preds.extend (output. asnumpy () ) 
ids = sorted(os.listdir(os.path.join(data_dir, input_dir, 'test/unknown' ' ) ) ) 
with open('submission.csv', 'w') as f: 
f.write('id,' + ','.join(train_valid_ds.synsets) + '\n') 
for i, output in zip(ids, preds): 
T WE 7.6) + '," + *,*.30In( 
[str(num) for num in output]) + '\n') 


train loss 5.051570, time 3.22 sec, lr 0.01 


执行 完 上 述 代码 后 ， 会 生成 一 个 submission.csv 文件 。 这 个 文件 符合 Kaggle 比赛 要 求 的 提 
交 格 式 。 提 交 结 果 的 方法 与 3.16 节 中 的 类 似 。 


小 结 
© 我 们 可 以 使 用 在 ImageNet 数据 集 上 预 训 练 的 模型 抽取 特征 ， 并 仅 训 练 自 定义 的 小 规模 输出 
网 络 ， 从 而 以 较 小 的 计算 和 存储 开销 对 ImageNet 的 子 集 数据 集 做 分 类 。 


练习 


(1) 使 用 Kaggle 完整 数据 集 ， 把 批量 大 小 batch_size 和 和 迭代 周期 数 num_epochs 分 别 调 大 
些 ， 可 以 在 Kaggle 上 拿 到 什么 样 的 结果 ? 

(2) 使 用 更 深 的 预 训 练 模型 ， 你 能 获得 更 好 的 结果 吗 ? 

(3) 扫 码 直达 讨论 区 ， 在 社区 交流 方法 和 结果 。 你 能 发 气 出 其 他 更 好 的 技巧 吗 ? 








自然 语言 处 理 关 注 计算 机 与 人 类 之 间 的 自然 语言 交互 。 在 实际 中 ， 我 们 常常 使 用 自然 语 
言 处 理 技术 ， 如 第 6 章 中 介绍 的 语言 模型 ， 来 处 理 和 分 析 大 量 的 自然 语言 数据 。 本 章 中 ， 根 
据 输入 与 输出 的 不 同形 式 ， 我 们 按 “ 定 长 到 定 长 ”“ 不 定 长 到 定 长 ”“ 不 定 长 到 不 定 长 ”的 顺 
序 ， 逐 步 展示 在 自然 语言 处 理 中 如 何 表征 并 变换 定 长 的 词 或 类 别 以 及 不 定 长 的 句子 或 段落 
序列 。 


我 们 先 介绍 如 何 用 向 量 表示 词 ， 并 在 语料库 上 训练 词 向 量 。 之 后 ， 我 们 把 在 更 大 语料库 上 
预 训练 的 词 癌 量 应 用 于 求 近义词 和 类 比 词 ， 即 “ 定 长 到 定 长 ”。 接 着 ， 在 文本 分 类 这 种 “不 定 
长 到 定 长 ”的 任务 中 ， 我 们 进一步 应 用 词 癌 量 来 分 析 文 本 情感 ， 并 分 别 基 于 循环 神经 网 络 和 卷 
积 神经 网 络 为 表征 时 序数 据 提供 两 种 思路 。 此 外 ， 自 然 语言 处 理 任务 中 很 多 输出 是 不 定 长 的 ， 
如 任意 长 度 的 句子 和 段落。 我 们 将 描述 应 对 这 类 问题 的 编码 器 - 解码 器 模型 、 束 搜索 和 注意 力 
机 制 ， 并 将 它们 应 用 于 “不 定 长 到 不 定 长 ”的 机 器 翻译 任务 中 。 


10.1 IERA ( word2vec ) 扫 码 直达 讨论 区 


自然 语言 是 一 套用 来 表达 含义 的 复杂 系统 。 在 这 套 系 统 中 ， 词 是 表 
义 的 基本 单元 。 顾 名 思 义 ， 词 向 量 是 用 来 表示 词 的 向 量 或 表征 ， 也 可 被 
认为 是 词 的 特征 同 量 。 把 词 映射 为 实数 域 向 量 的 技术 也 叫 词 谱 入 〈word 
embedding)。 近 年 来 ， 词 颈 入 已 逐渐 成 为 自然 语言 处 理 的 基础 知识 。 





10.1.1 为 何不 采用 one-hot 向 量 

我 们 在 6.4 节 中 使 用 one-hot 向 量 表示 词 〈( 字 符 为 词 )。 回 忆 一 下 ， 假 设 词典 中 不 同 词 的 数 
量 (词典 大 小 ) 为 W， 每 个 词 可 以 和 从 0 到 N-1 的 连续 整数 一 一 对 应 。 这 些 与 词 对 应 的 整数 
叫 作词 的 索引 。 假 设 一 个 词 的 索引 为 i， 为 了 得 到 该 词 的 one-hot 向 量 表示 ， 我 们 创建 一 个 全 0 
的 长 为 的 向 量 ， 并 将 其 第 i 位 设 成 1。 这 样 一 来 ， 每 个 词 就 表示 成 了 一 个 长 度 为 和 N 的 向 量 ， 
可 以 直接 被 神经 网 络 使 用 。 


虽然 one-hot 词 同 量 构造 起 来 很 容易 ， 但 通常 并 不 是 一 个 好 选择 。 一 个 主要 的 原因 是 ， 
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one-hot 词 向 量 无 法 准确 表达 不 同 词 之 间 的 相似 度 ， 如 我 们 常常 使 用 的 余弦 相似 度 。 对 于 癌 量 
x, ye 恨 *"， 它 们 的 余弦 相似 度 是 它们 之 间 夹 角 的 余弦 值 
x' y 
[IN 
由 于 任何 两 个 不 同 词 的 one-hot 向 量 的 余弦 相似 度 都 为 0， 多 个 不 同 词 之 间 的 相似 度 难 以 
通过 one-hot 回 量 准确 地 体现 出 来 。 


word2vec 工具 的 提出 正 是 为 了 解决 上 面 这 个 问题 。 它 将 每 个 词 表示 成 一 个 定 长 的 同 量 ， 
并 使 得 这 些 向 量 能 较 好 地 表达 不 同 词 之 间 的 相似 和 类 比 关 系 。word2vec 工具 包含 了 两 个 模型 ， 
即 跳 字 模型 〈skip-gram) “和 连续 词 袋 模型 (continuous bag of words, CBOW) 与 。 接 下 来 让 
我 们 分 别 介绍 这 两 个 模型 以 及 它们 的 训练 方法 。 





lage? 1] 


10.1.2 WFRE 


跳 字 模型 假设 基于 某 个 词 来 生成 它 在 文本 序列 周围 的 词 。 举 个 例子 ， 假 设 文本 序列 是 
“the”“man”“loves”“his”“son”。 以 “loves” 作 为 中 心 词 ， 设 背景 窗口 大 小 为 2。 如 图 10-1 
所 示 ， 跳 字模 型 所 关心 的 是 ， 给 定 中 心 词 “loves”， 生 成 与 它 距 离 不 超过 2 个 词 的 背景 词 
“the” “man” “his” “son” WJF, B 

P(“the”, “man”, “his”, “son” | “loves”) 
假设 给 定 中 心 词 的 情况 下 ， 背 景 词 的 生成 是 相互 独立 的 ， 那 么 上 式 可 以 改写 成 


P(‘the” | “loves”) + P(“‘man” | “loves”) : P(“his” | “loves”) POCOson | “loves’’) 


the man his son 





loves 


10-1 ” 跳 字 模型 关心 给 定 中 心 词 生成 背景 词 的 条 件 概 率 


在 跳 字模 型 中 ， 每 个 词 被 表示 成 两 个 4 维 向 量 ， 用 来 计算 条 件 概 率 。 假 设 这 个 词 在 词典 中 
索引 为 i， 当 它 为 中 心 词 时 向 量 表示 为 v, e R*"， 而 为 背景 词 时 向 量 表 示 为 u e R*。 设 中 心 词 w, 
在 词典 中 索引 为 c， 背 景 词 w, 在 词典 中 索引 为 o， 给 定 中 心 词 生成 背景 词 的 条 件 概 率 可 以 通过 
对 向 量 内 积 做 softmax 运算 而 得 到 : 


exp(u, V.) 


icy SPU; Ye) 
其 中 词典 索引 集 V={0,1,---,|VI-l}. RE-MENT APES, BEAT tia] A 
w. eee re Pt ia] TB at al AE, SR BOK DA m 时 ， 跳 字模 型 的 


P(w,|w,) = 


10.1 JRA (word2vec) * 323° 


似 然 函数 即 给 定 任 一 中 心 词 生成 所 有 背景 词 的 概率 
了 
JI [| Pw?) | w) 
t=] -mS jSm, j+0 


这 里 小 于 1 或 大 于 了 的 时 间 步 可 以 被 忽略 。 


训练 跳 字模 型 


跳 字 模型 的 参数 是 每 个 词 所 对 应 的 中 心 词 癌 量 和 背景 词 各 量 。 训 练 中 我 们 通过 最 大 化 似 然 
函数 来 学 习 模型 参数 ， 即 最 大 似 然 估计 。 这 等 价 于 最 小 化 以 下 损失 函数 : 


E 
-> >. log P(w) | w)) 


t=] -mS j<m, j+0 
如 果 使 用 随机 梯度 下 降 ， 那 么 在 每 一 次 迭代 里 我 们 随机 采样 一 个 较 短 的 子 序列 来 计算 有 关 
该 子 序列 的 损失 ， 然 后 计算 梯度 来 更 新 模型 参数 。 梯 度 计 算 的 关键 是 条 件 概 率 的 对 数 有 关中 心 
词 同 量 和 背景 词 同 量 的 梯度 。 根 据 定义 ， 首 先 看 到 


log P(w, | We) = u, Ve -os| Y ate!) 


ieV 


通过 微分 ， 我 们 可 以 得 到 上 式 中 w 的 梯度 


alog P(w, | w,) ia ee exp(u; v,)u, 
Ov. i E exp(u; Ve) 


exp(u; v,) 
=u, - U, 
5 | tes exp(m V see 
=U, -5 P(w; | w, )u; 
jeV 
它 的 计算 需要 词典 中 所 有 词 以 w, 为 中 心 词 的 条 件 概率 。 有 关 其 他 词 问 量 的 梯度 同 理 可 得 。 


训练 结束 后 ， 对 于 词典 中 的 任 一 索引 为 i 的 词 ， 我 们 均 得 到 该 词 作为 中 心 词 和 背景 词 的 两 组 
WE v, 和 w,。 在 自然 语言 处 理应 用 中 ， 一 般 使 用 跳 字模 型 的 中 心 词 同 量 作 为 词 的 表征 同 量 。 


10.1 ws 连续 词 袋 模型 loves 


连续 词 袋 模型 与 跳 字 模型 类 似 。 与 跳 字 模型 最 大 
的 不 同 在 于 ， 连 续 词 袋 模型 假设 基于 某 中 心 词 在 文本 
序列 前 后 的 背景 词 来 生成 该 中 心 词 。 在 同样 的 文本 序 
7| “the” “man” “loves” “his” “son” 里 ， 以 “loves” LD ay 4 LS 
作为 中 心 词 ， 且 背景 窗口 大 小 为 2 时 ， 连 续 词 袋 模 hes ‘oa his eis 
MRD, BE AR “the” “man” “his” “ison 10.2 EASA E R 
生成 中 心 词 “loves” 的 条 件 概率 〈 如 图 10-2 Aras), 生成 中 心 词 的 条 件 概 率 
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也 就 是 
P(“loves” | “the”, “man”, “his”, “son’’) 
因为 连续 词 袋 模型 的 背景 词 有 多 个 ， 我 们 将 这 些 背 景 词 问 量 取 平均 ， 然 后 使 用 和 跳 字 模型 
一 样 的 方法 来 计算 条 件 概率 。 设 w ER! Alu, ER? 分 别 表示 词 典 中 索引 为 i 的 词 作为 背景 词 和 
中 心 词 的 向 量 (注意 符号 的 含义 与 跳 字 模型 中 的 相反 )。 设 中 心 词 w, FER RS] Ac, AR 
词 Ww ，…,Wo,, 在 词典 中 索引 为 01,…,02m， 那 么 给 定 背 景 词 生成 中 心 词 的 条 件 概 率 


MA: 
p| zt Om t+ Yan) 
Léon 
Ey (Zt a ttan) 


为 了 让 符号 更 加 简单 ， 我 们 记 W, = {wa ，…, Won} H 7 = Wo + +o) (2m), WAERT 
以 简写 成 


P(w, lw Wa, ) = 


Ts 
P(w, | W,) = eet Pod 


fees exp(u Vo) 
BE-TSKEATHI MARA, KN t ARA w, PRAOK)D)Am. EBRARRAN 
似 然 函数 是 由 背景 词 生 成 任 一 中 心 词 的 概率 


T 
[| P(w | wim) ， ve, wi). with | ses wey 


训练 连续 词 袋 模 型 
训练 连续 词 袋 模型 同 训练 跳 字 模型 基本 一 致 。 连 续 词 袋 模型 的 最 大 似 然 估计 等 价 于 最 小 化 
损失 函数 


D log P(wW | wim) ee, wr). wit) ， ee, weitm)) 
f=] 


注意 到 
log P(w, | W) - u,v, TT =p) eo) 
ieV 


通过 微分 ， 我 们 可 以 计算 出 上 式 中 条 件 概率 的 对 数 有 关 任 一 背景 词 问 量 w (i=1,…, 2m) 的 梯度 


“hs -)> Pw, IW, )u; | 
jev 


有 关 其 他 词 向 量 的 梯度 同 理 可 得 。 同 跳 字 模型 不 一 样 的 一 点 在 于 ， 我 们 一 般 使 用 连续 词 袋 
模型 的 背景 词 癌 量 作为 词 的 表征 同 量 。 


dog P.M). 1, 
Ov 


0; 


exp(u; V, ou; 
LaF expt) exp(z v,) 
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小 结 
© 词 向 量 是 用 来 表示 词 的 向 量 。 把 词 映 射 为 实数 域 向 量 的 技术 也 叫 词 通 入 。 
© Word2vec 包含 跳 字 模型 和 连续 词 袋 模型 。 跳 字模 型 假设 基于 中 心 词 来 生成 背景 词 。 连 续 词 
袋 模型 假设 基于 背景 词 来 生成 中 心 词 。 


练习 

(1) 每 次 梯度 的 计算 复杂 度 是 多 少 ? 当 词 典 很 大 时 ， 会 有 什么 问题 ? 

(2) 英语 中 有 些 固 定 短语 由 多 个 词组 成 ， 如 “new york”。 如 何 训练 它们 的 词 向 量 ? 提示 : THR 
# word2vec 论文 第 4 节 “o, 

(3) 让 我 们 以 跳 字 模型 为 例 思 者 word2vec 模型 的 设计 。 跳 字模 型 中 两 个 词 向 量 的 内 积 与 余弦 相 
似 度 有 什么 关系 ? 对 语义 相近 的 一 对 词 来 说 ， 为 什么 它们 的 词 向 量 的 余弦 相似 度 可 能 会 高 ? 





10.2 ”近似 训练 
回忆 10.1 节 的 内 容 。 跳 字模 型 的 核心 在 于 使 用 softmax 运算 得 到 给 定 [m] [m] 
中 心 词 w 来 生成 背景 词 w 的 条 件 概率 Ju 


nl 





exp(uo Ve) 


P(w, | W,) == 
S expl v) 


该 条 件 概率 相应 的 对 数 损失 
-log P(w, | w.) = -uo v, +log 》 exp(u; v,) 
ieV 

由 于 softmax 运算 考虑 了 背景 词 可 能 是 词典 中 的 任 一 词 ， 以 上 损失 包含 了 词典 大 小 数目 的 
项 的 累加 。 在 10.1 节 中 我 们 看 到 ， 不 论 是 跳 字 模型 还 是 连续 词 袋 模型 ， 由 于 条 件 概率 使 用 了 
softmax 运算 ， 每 一 步 的 梯度 计算 都 包含 词典 大 小 数目 的 项 的 累加 。 对 含 几 十 万 或 上 白 万 词 的 
较 大 词典 来 说 ， 每 次 的 梯度 计算 开销 可 能 过 大 。 为 了 降低 该 计算 复杂 度 ， 本 节 将 介绍 两 种 近似 
训练 方法 ， 即 负 采 样 (negative sampling) 或 层 序 softmax (hierarchical softmax )。 由 于 跳 字 模 
型 和 连续 词 袋 模型 类 似 ， 本 节 仅 以 跳 字 模型 为 例 介绍 这 两 种 方法 。 


10.2.1 负 采 样 


负 采 样 修改 了 原来 的 目标 函数 。 给 定 中 心 词 w, 的 一 个 背景 窗口 ， 我 们 把 背景 词 w, 出 现在 
该 背景 窗口 看 作 一 个 事件 ， 并 将 该 事件 的 概率 计算 为 


P(D =1|w,, w,)=o(u, v.) 


其 中 的 o 函数 与 sigmoid 激活 函数 的 定义 相同 : 
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l 
insu? 1+ exp(—x) 
我 们 先 考虑 最 大 化 文本 序列 中 所 有 该 事件 的 联合 概率 来 训练 词 同 量 。 具 体 来 说 ， 给 定 一 个 


长 度 为 了 的 文本 序列 ， 设 时 间 步 ! 的 词 为 wo 且 背 景 窗口 大 小 为 m， 考 虑 最 大 化 联合 概率 


T 
IT] [J] ?@=11W.w™) 
t=] -mS j<m, j+0 
然而 ， 以 上 模型 中 包含 的 事件 仅 考 虑 了 正 类 样本 。 这 导致 当 所 有 词 癌 量 相等 且 值 为 无 穷 大 

时 ， 以 上 的 联合 概率 才 被 最 大 化 为 1。 很 明显 ， 这 样 的 词 向 量 毫 无 意义 。 负 采样 通过 采样 并 添加 
负 类 样本 使 目标 函数 更 有 意义 。 设 背景 词 w 出 现在 中 心 词 w, 的 一 个 背景 窗口 为 事件 P， 我 们 根 
据 分 布 P(w) 采样 天 个 未 出 现在 该 背景 窗口 中 的 词 ， 即 噪声 词 。 设 噪声 词 w (k= 1, =, K) 不 出 
现在 中 心 词 w- 的 该 背景 窗口 为 事件 W。 假 设 同 时 含有 正 类 样本 和 负 类 样本 的 事件 已 Ni,…, Nk 
相互 独立 ， 负 采样 将 以 上 需要 最 大 化 的 仅 考虑 正 类 样本 的 联合 概率 改写 为 


Il [| P(w*)) | w) 


t=] —mSj<m, j+0 


其 中 条 件 概率 被 近似 表示 为 


K 
PWP |w)=P(D=1|w, w) [|  P(D=0|w, w) 
k=1, w,~P(w) 


设 文本 序列 中 时 间 步 1 的 词 w” 在 词典 中 的 索引 为 zw， 噪声 词 wi 在 词典 中 的 索引 为 办 。 有 
关 以 上 条 件 概率 的 对 数 损失 为 


K 


-log P(w*?) | w®) = -log P(D =1| vw, wet) — F log PLD =0| w, w,) 
k=1, w,~P(w) 
K 
=-logo(u)v,)- J, logl-olu,v,)) 
; k=1, w, ~P(w) 
K 
= -log ou; Hr 3 log o(-uy, v; ) 
k=l, w, ~P(w) 


现在 ， 训 练 中 每 一 步 的 梯度 计算 开销 不 再 与 词典 大 小 相关 ， 而 与 天 线性 相关 。 当 天 取 较 
小 的 第 数 时 ， 负 采样 在 每 一 步 的 梯度 计算 开销 较 小 。 


10.2.2 层 序 softmax 
层 序 softmax 是 另 一 种 近似 训练 法 。 它 使 用 了 二 又 树 这 一 数据 结构 ， 树 的 每 个 叶 结 点 代表 
词典 7 中 的 每 个 词 。 


假设 L(w) 为 从 二 又 树 的 根 结 点 到 词 w 的 叶 结 反 的 路 径 〈 包 括 根 结 皮 和 叶 结 点 ) WS 
DR. Kw, j) 为 该 路 径 上 第 j 个 结 皮 ， 并 设 该 结 皮 的 背景 词 同 量 为 Ww,j))。 以 图 10-3 为 例 ， 
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L(w3)=4., JEFF softmax 将 跳 字 模型 中 的 条 件 概率 近似 表示 为 
L(w,)-1 
P(w, |w,)= [| ofin, J +1) =leftChild(n(w,, N uow, pve) 
j=l 

SEP o 函数 与 3.8 节 中 的 sigmoid 激活 函数 的 定义 相同 ，leftChild(n) 24 An WATE A: 如 
RHE x AR, [xJ=1; 反之 [xj= -1。 让 我 们 计算 图 10-3 HAER w, 生成 词 w 的 条 件 概率 。 
我 们 需要 将 we 的 词 向 量 v, 和 根 结 点 到 w 路 径 上 的 非 叶 结 点 向 量 一 一 求 内 积 。 由 于 在 二 又 树 中 
由 根 结 点 到 叶 结 点 w 的 路 径 上 需要 向 左 、 向 右 再 向 左 地 遍历 〈 图 10-3 中 加 粗 的 路 径 )， 我 们 
得 到 


f T T 
P(w;|w,) = O(Un(w,1) ve) OC Uniw, 2%) * F(Uncws,3)%e) 


n(w,, 1) 





10-3 ” 层 序 softmax。 二 叉 树 的 每 个 叶 结 点 代表 着 词典 的 每 个 词 


由 于 o(X)+o(-x)=1， 给 定 中 心 词 w 生成 词典 y 中 任 一 词 的 条 件 概 率 之 和 为 1 这 一 条 
件 也 将 满足 : 


> Pw|w.)=1 


weV 


此 外 ， 由 于 LZL(w,) 一 1 的 数量 级 为 O(log,|V)， 当 词典 VBA, JEFF softmax 训练 中 每 一 
步 的 梯度 计算 开销 相 较 未 使 用 近似 训练 时 大 幅 降低 。 


负 采 样 通过 考虑 同时 含有 正 类 样本 和 负 类 样本 的 相互 独立 事件 来 构造 损失 函数 。 其 训练 中 每 
一 步 的 梯度 计算 开销 与 采样 的 噪声 词 的 个 数 线性 相关 。 


层 序 softmax 使 用 了 二 又 树 ， 并 根据 根 结 点 到 叶 结 点 的 路 径 来 构造 损失 函数 。 其 训练 中 每 一 
步 的 梯度 计算 开销 与 词典 大 小 的 对 数 相关 。 
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练习 
(1) 在 阅读 10.3 节 之 前 ， 你 觉得 在 负 采 样 中 应 如 何 采 样 噪声 词 ? 
(2) 本 节 中 最 后 一 个 公式 为 什么 成 立 ? 
(3) 如 何 将 负 采 样 或 层 序 softmax 用 于 训练 连续 词 袋 模型 ? 


10.3 word2vec 的 实现 


本 节 是 对 前 两 节 内 容 的 实践 。 我 们 以 10.1 节 中 的 跳 字模 型 和 10.2 节 
中 的 负 采 样 为 例 ， 介 绍 在 语料库 上 训练 词 嵌 入 模型 的 实现 。 我 们 还 会 介绍 
一 些 实现 中 的 技巧 ， 如 二 次 采样 。 


首先 导入 实验 所 需 的 包 或 模块 。 


In [1]: import collections 
import d2lzh as d2L 
import math 
from mxnet import autograd, gluon, nd 
from mxnet.gluon import data as gdata, loss as gloss, nn 
import random 
import sys 





import time 
import zipfile 


10.3.1 JAMES SR 


PTB (Penn Tree Bank) 是 一 个 常用 的 小 型 语料库 。 它 采样 自 《 华 尔 街 日 报 》 的 文章 ， 包 
括 训练 集 、 验 证 集 和 测试 集 。 我 们 将 在 PTB VIA EVA RAMA. RH BITTE 
为 一 个 句子 。 句 子 中 的 每 个 词 由 空格 隔 开 。 


In [2]: with zipfile.ZipFile('../data/ptb.zip', 'r') as zin: 
zin.extractall('../data/') 


with open('../data/ptb/ptb.train.txt', 'r') as f: 
lines = f.readlines() 
# st 是 sentence 的 缩写 
raw_dataset = [st.split() for st in lines] 


'# sentences: %d' % Len(raw_dataset) 


Out[2]: '# sentences: 42068' 
对 于 数据 集 的 前 3 个 句子 ， 打 印 每 个 句子 的 词 数 和 前 $ 个 词 。 这 个 数据 集中 句 尾 符 为 
“<eos>”， 生 僻 词 全 用 “<unk>” 表 示 ， 数 字 则 被 普 换 成 了 “N”。 


In [3]: for st in raw_dataset[:3]: 
print('# tokens:', len(st), st[:5]) 
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# tokens: 24 ['aer', 'banknote', 'berlitz', 'calloway', 'centrust' ] 
# tokens: 15 ['pierre', '<unk>', 'N', 'years', ‘old'] 
# tokens: 11 ['mr.', '<unk>', ‘is', 'chairman', ‘of'] 


1.， 建立 词语 索引 
为 了 计算 简单 ， 我 们 只 保留 在 数据 集中 至 少 出 现 5 次 的 词 。 


In [4]: # tk 是 token 的 缩写 
counter = collections.Counter([tk for st in raw_dataset for tk in st]) 
counter = dict(filter(lambda x: x[1] >= 5, counter.items())) 


然后 将 词 映射 到 整数 索引 。 


In [5]: idx_to_token = [tk for tk, _ in counter.items() ] 
token_to_idx = {tk: idx for idx, tk in enumerate(idx_to_token) } 
dataset = [[token_to_idx[tk] for tk in st if tk in token_to_idx] 
for st in raw_dataset] 
num_tokens = sum([len(st) for st in dataset] ) 
'# tokens: %d' % num_tokens 


Out[5]: '# tokens: 887100' 


2. 二 次 采样 


文本 数据 中 一 般 会 出 现 一 些 高 频 词 ， 如 英文 中 的 “the”“a” 和 “in”。 通 常 来 说 ， 在 一 个 
背景 窗口 中 ， 一 个 词 ( 如 “chip”) 和 较 低 频 词 (如 “microprocessor”) 同时 出 现 比 和 较 高 频 词 
(如 “the”) 同时 出 现 对 训练 词 肉 入 模型 更 有 益 。 因 此 ， 训 练 词 藤 入 模型 时 可 以 对 词 进行 二 次 
采样 (subsampling)“"。 具 体 来 说 ， 数 据 集 中 每 个 被 索引 词 w 将 有 一 定 概率 被 丢弃 ， 该 丢弃 
概率 为 





P(w;) = max| 1- ; , 0 
| fwi) 


其 中 fw) 是 数据 集中 词 w 的 个 数 与 总 词 数 之 比 ， 常 数 上 是 一 个 超 参 数 〈 实 验 中 设 为 10 )。 可 见 ， 
RAS fw > 上 时 ， 我 们 才 有 可 能 在 二 次 采样 中 丢弃 词 w， 并 且 越 高 频 的 词 被 丢弃 的 概率 越 大 。 


In [6]: def discard(idx): 
return random.uniform(0, 1) < 1 - math.sqrt( 
le-4 / counter[idx_to_token[idx]] * num_tokens) 


subsampled_dataset = [[tk for tk in st if not discard(tk)] for st in dataset] 
'# tokens: %d' % sum([len(st) for st in subsampled_dataset] ) 


Out[6]: '# tokens: 375744' 


可 以 看 到 ， 二 次 采样 后 我 们 去 掉 了 一 半 左 右 的 词 。 下 面 比较 一 个 词 在 二 次 采样 前 后 出 现在 
数据 集中 的 次 数 。 可 见 高 频 词 “the” 的 采样 率 不 足 1/20. 
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In [7]: def compare_counts (token): 
return '# %s: before=%d, after=%d' % (token, sum( 
[st.count(token_to_idx[token]) for st in dataset]), sum( 
[st.count(token_to_idx[token]) for st in subsampled_dataset] ) ) 


compare_counts('the') 


Out[7]: '# the: before=50770, after=2170' 


但 低频 词 “join” 则 完整 地 保留 了 下 来 。 


In [8]: compare_counts('join') 


Out[8]: '# join: before=45, after=45' 
3. 提取 中 心 词 和 背景 词 


我 们 将 与 中 心 词 距离 不 超过 背景 窗口 大 小 的 词 作 为 它 的 背景 词 。 下 面 定 义 函 数 所 取出 所 有 
中 心 词 和 它们 的 背景 词 。 它 每 次 在 整数 1 和 max_window_size (最 大 背景 窗口 ) 之 间 随 机 均 
匀 采 样 一 个 整数 作为 背景 窗口 大 小 。 


In [9]: def get_centers_and_contexts(dataset, max_window_size): 
centers, contexts = [], [] 
for st in dataset: 
if len(st) < 2: # 每 个 句子 至 少 要 有 2 个 词 才 可 能 组 成 一 对 “中 心 词 -背景 词 ” 
continue 
centers += st 
for center_i in range(len(st)): 
window_size = random.randint(1, max_window_size) 
indices = list(range(max(0, center_i - window_size), 
min(len(st), center_i + 1 + window_size) )) 
indices.remove(center_i) # 将 中 心 词 排除 在 背景 词 之 外 
contexts.append([st[idx] for idx in indices]) 
return centers, contexts 


下 面 我 们 创建 一 个 人 工 数据 集 ， 其 中 含有 词 数 分 别 为 7 和 3 的 两 个 句子 。 设 最 大 背景 窗口 
为 2， 打 印 所 有 中 心 词 和 它们 的 背景 词 。 


In [10]: tiny_dataset = [list(range(7)), list(range(7, 10))] 
print('dataset', tiny_dataset) 
for center, context in zip(*get_centers_and_contexts(tiny_dataset, 2)): 
print('center', center, 'has contexts', context) 


dataset [[0, “ly 27237m, S165 078, OT) 


center 0 has contexts [1] 

center 1 has contexts [0, 2] 
center 2 has contexts [1, 3] 
center 3 has contexts [1, 2, 4, 5] 
center 4 has contexts [3, 5] 
center 5 has contexts [3, 4, 6] 
center 6 has contexts [4, 5] 
center 7 has contexts [8, 9] 
center 8 has contexts [7, 9] 
center 9 has contexts [7, 8] 
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实验 中 ， 我 们 设 最 大 背景 窗口 大 小 为 5。 下 面 提取 数据 集中 所 有 的 中 心 词 及 其 背景 词 。 


In [11]: all_centers, all_contexts = get_centers_and_contexts(subsampled_dataset, 5) 


10.3.2 负 采 样 


我 们 使 用 负 采 样 来 进行 近似 训练 。 对 于 一 对 中 心 词 和 背景 词 ， 我 们 随机 采样 天 个 噪声 词 
(实验 中 设 天 = $)。 根 据 word2vec 论文 的 建议 ， 噪 声 词 采 样 概 率 P(w) 设 为 w 词 频 与 总 词 频 之 
比 的 0.75 KA 。 

In [12]: def get_negatives(all_contexts, sampling_weights, K): 

all_negatives, neg_candidates, i = [], [], © 
population = list(range(lLen(sampling_weights) ) ) 
for contexts in all_contexts: 
negatives = [] 
while len(negatives) < len(contexts) * K: 
if i == len(neg_candidates): 
# 根据 每 个 词 的 权重 (sampling_weights) 随机 生成 k 个 词 的 索引 作为 噪声 词 。 
# 为 了 高 效 计 算 ， 可 以 将 k 设 得 稍 大 一 点 
i, neg_candidates = 0, random.choices( 
population, sampling_weights, k=int(1e5) ) 
neg, i = neg_candidates[i], i+ 1 
# 噪声 词 不 能 是 背景 词 
if neg not in set(contexts): 
negatives. append (neg) 
all_negatives. append (negatives) 
return all_negatives 


sampling_weights = [counter[w]**0.75 for w in idx_to_token] 
all_negatives = get_negatives(all_contexts, sampling_weights, 5) 


10.3.3” 读 取 数 据 集 


我 们 从 数据 集中 提取 所 有 中 心 词 aLL_centers， 以 及 每 个 中 心 词 对 应 的 背景 词 all 
contexts 和 噪声 词 aLL_negatives。 我 们 将 通过 随机 小 批量 来 读 取 它 们 。 


在 一 个 小 批量 数据 中 ， 第 i 个 样本 包括 一 个 中 心 词 以 及 它 所 对 应 的 n 个 背景 词 和 mi 个 噪 
声 词 。 由 于 每 个 样本 的 背景 窗口 大 小 可 能 不 一 样 ， 其 中 背景 词 与 噪声 词 个 数 之 和 n+ m 也 会 不 
同 。 在 构造 小 批量 时 ， 我 们 将 每 个 样本 的 背景 词 和 噪声 词 连结 在 一 起 ， 并 添加 填充 项 0 直至 连 
结 后 的 长 度 相 同 ， 即 长 度 均 为 max,n,+ m, (max_len 变量 )。 为 了 避免 填充 项 对 损失 函数 计算 的 
影响 ， 我 们 构造 了 掩 码 变量 masks， 其 每 一 个 元 素 分 别 与 连结 后 的 背景 词 和 噪声 词 contexts_ 
negatives 中 的 元 素 一 一 对 应 。 当 contexts_negatives 变量 中 的 某 个 元 素 为 填充 项 时 ， 相 
同位 置 的 掩 码 变量 masks 中 的 元 素 取 0， 否 则 取 1。 为 了 区 分 正 类 和 负 类 ， 我 们 还 需要 将 
contexts_negatives 变量 中 的 背景 词 和 噪声 词 区 分 开 来 。 依 据 掩 码 变量 的 构造 思路 ， 我 们 只 需 
创建 与 contexts_negatives 变量 形状 相同 的 标签 变量 LabeLs， 并 将 与 背景 词 〈 正 类 ) 对 应 的 
元 素 设 1， 其 余 清 0。 
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下 面 我 们 实现 这 个 小 批量 读 取 函数 batchify。 它 的 小 批量 输入 data 是 一 个 长 度 为 批量 


大 小 的 列表 ， 


其 中 每 个 元 素 分 别 包 含 中 心 词 center, fF ial context 和 噪声 词 negative. 


该 函数 返回 的 小 批量 数据 符合 我 们 需要 的 格式 ， 例 如 ,包含 了 掩 码 变量 。 


In £131: 


def batchify(data): 
max_len = max(len(c) + len(n) for _, c, n in data) 
centers, contexts_negatives, masks, labels = [], [], [], [] 
for center, context, negative in data: 
cur_len = len(context) + len(negative) 
centers += [center] 
contexts_negatives += [context + negative + [0] * (max_len - cur_len)] 
masks += [[1] * cur_len + [0] * (max_len - cur_len) ] 
labels += [[1] * lLen(context) + [0] * (max_len - Len(context) ) ] 
return (nd.array(centers).reshape((-1, 1)), nd.array(contexts_negatives) , 
nd.array(masks), nd.array(labels) ) 


我 们 用 刚刚 定义 的 batchi fy 函数 指定 DataLoader 实例 中 小 批量 的 读 取 方 式 ， 然 后 打印 
读 取 的 第 一 个 批量 中 各 个 变量 的 形状 。 


In [14]: 


batch_size = 512 
num_workers = 0 if sys.platform.startswith('win32') else 4 
dataset = gdata.ArrayDataset(all_centers, all_contexts, all_negatives) 
data_iter = gdata.DataLoader(dataset, batch_size, shuffle=True, 
batchi fy_fn=batchify, num_workers=num_workers) 

for batch in data_iter: 

for name, data in zip(['centers', 'contexts_negatives', 'masks', 

'Labels'], batch): 
print(name, 'shape:', data.shape) 
break 


centers shape: (512, 1) 
contexts_negatives shape: (512, 60) 
masks shape: (512, 60) 

labels shape: (512, 60) 


10.3.4” 跳 字模 型 
我 们 将 通过 使 用 嵌入 层 和 小 批量 乘法 来 实现 跳 字模 型 。 它 们 也 常常 用 于 实现 其 他 自然 语言 


处 理 的 应 用 。 


1. RAR 


SRA RAN RRARKAA, Æ Gluon 中 可 以 通过 创建 nn.Embedding XPE. WRAZ 
的 权重 是 一 个 矩阵 ， 其 行 数 为 词典 大 小 (input_dim)， 列 数 为 每 个 词 向 量 的 维度 Coutput_ 
dim)。 我 们 设 词 典 大 小 为 20， 词 向 量 的 维度 为 4。 


Tn E15]: 


Out[15]: 


embed = nn.Embedding(input_dim=20, output_dim=4) 
embed. initialize() 
embed.weight 


Parameter embeddingO_weight (shape=(20, 4), dtype=float32) 
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能 入 层 的 输入 为 词 的 索引 。 输 入 一 个 词 的 索引 六 PAI EB THEN EH 
词 回 量 。 下 面 我 们 将 形状 为 (2, 3) 的 索引 输入 进 艇 入 层 ， 由 于 词 向 量 的 维度 为 4， 我 们 得 到 形 
状 为 (2, 3, 4) 的 词 向 量 。 


In [16]: x = nd.array({[{i, 2, 3], [4,. 55. 6]]) 
embed (x) 


Out[16]: 
[[[ 0.01438687 0.05011239 0©.00628365 0.04861524] 
[-0.01068833 0.01729892 0.02042518 -0.01618656] 
[-0.00873779 -0.02834515 0.05484822 -0.06206018] ] 


[[ 0.06491279 -0.03182812 -0.01631819 -0.00312688] 

[ 0.0408415 0.04370362 0.00404529 -0.0028032 ] 

[ ©.00952624 -0.01501013 0©.05958354 0.04705103]]] 
<NDArray 2x3x4 @cpu(0)> 


2. 人 小 批量 乘法 


我 们 可 以 使 用 小 批量 乘法 运算 batch_dot 对 两 个 小 批量 中 的 矩阵 一 一 做 乘法 。 假 设 第 一 
个 小 批量 包含 个 形状 为 axb RERE X, =, 3， 第 二 个 小 批量 包含 个 形状 为 bxc 的 矩阵 
Yi,…, 了,。 这 两 个 小 批量 的 矩阵 乘法 输出 为 n 个 形状 为 axc AERE X Y, =, X,Y, A, AE 
两 个 形状 分 别 为 (n, a, b) 和 (n, b, c) 的 NDArray， 小 批量 乘法 输出 的 形状 为 (n, a, c)。 

In [17]: X = nd.ones((2, 1, 4)) 


Y = nd.ones((2, 4, 6)) 
nd.batch_dot(X, Y).shape 


Out[17]: (2, 1, 6) 


3. 跳 字模 型 前 向 计算 


在 前 同 计算 中 ， 跳 字模 型 的 输入 包含 中 心 词 索 引 center 以 及 连结 的 背景 词 与 噪声 词 索引 
contexts_and_negatives。 其 中 center 变量 的 形状 为 (批量 大 小 , 1)， 而 contexts_and_ 
negatives 变量 的 形状 为 (批量 大 小 , max_Lem)。 这 两 个 变量 先 通过 词 嵌 入 层 分 别 由 词 索引 变 
换 为 词 回 量 ， 再 通过 小 批量 乘法 得 到 形状 为 (批量 大 小 , 1, max_len) 的 输出 。 输 出 中 的 每 个 元 
素 是 中 心 词 同 量 与 背景 词 癌 量 或 噪声 词 向 量 的 内 积 。 

In [18]: def skip_gram(center, contexts_and_negatives, embed_v, embed_u): 

v = embed_v(center) 
u = embed_u(contexts_and_negatives) 


pred = nd.batch_dot(v, u.swapaxes(1, 2)) 
return pred 


10.3.5 ”训练 模型 
在 训练 词 嵌 入 模型 之 前 ， 我 们 需要 定义 模型 的 损失 函数 。 
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1. ITERA 
根据 负 采 样 中 损失 函数 的 定义 ， 我 们 可 以 直接 使 用 Gluon HH TRAMMA BHR 


SigmoidBinaryCrossEntropyLoss. 


In [19]: loss = gloss.SigmoidBinaryCrossEntropyLoss() 


值得 一 提 的 是 ， 我 们 可 以 通过 掩 码 变量 指定 小 批量 中 参与 损失 函数 计算 的 部 分 预测 值 和 标 
S: 当 掩 码 为 1 时 ， 相 应 位 置 的 预测 值 和 标签 将 参与 损失 函数 的 计算 ; 当 掩 码 为 0 时， 相应 位 
置 的 预测 值 和 标签 则 不 参与 损失 函数 的 计算 。 我 们 之 前 提 到 ， 掩 码 变 量 可 用 于 避免 填充 项 对 损 
失 函 数 计算 的 影响 。 

In [20]: pred = ndvarray([[1.5, 0.3, -1; 2], [{1.1, -0.6, 2.2, .0.4]]) 

# 标签 变量 LabeL 中 的 1 和 0 分 别 代表 背景 词 和 噪声 词 
label = nd.array([[1, 0, 0, 0], [1, 1, 0, 0]]) 


mask = nd.array([[1, 1, 1, 1], [1, 1, 1, 0]]) # 掩 码 变 量 
loss(pred, label, mask) * mask.shape[1] / mask.sum(axis=1) 


Out[20]: 
[9 .8739896 1.2099689 ] 
<NDArray 2 @cpu(Q)> 


ERER, FR AMSA RL TALAR RRA, FPGAS mask 计算 
掩 码 为 1 的 预测 值 和 标签 的 损失 。 
In [21]: def sigmd(x): 


return -math.log(1 / (1 + math.exp(-x))) 


print('%.7f' % ((sigmd(1.5) + sigmd(-0.3) + sigmd(1) + sigmd(-2)) / 4)) 
print('%.7f' % ((sigmd(1.1) + sigmd(-0.6) + sigmd(-2.2)) / 3)) 


0.8739896 
1.2099689 


2. 初始 化 模型 参数 
我 们 分 别 构 造 中 心 词 和 背景 词 的 柑 入 层 ， 并 将 超 参数 词 向 量 维度 embed_size 设置 成 100。 


In [22]: embed_size = 100 
net = nn.Sequential() 
net. add (nn. Embedding (input_dim=lLen(idx_to_token) , output_dim=embed_size) , 
nn. Embedding (input_dim=Len(idx_to_token) , output_dim=embed_s7ze) ) 


3. 定义 训练 函数 

下 面 定 义 训练 函数 。 由 于 填充 项 的 存在 ， 与 之 前 的 训练 函数 相 比 ， 损 失 函 数 的 计算 稍 有 
不 同 。 

In [23]: def train(net, lr, num_epochs): 


ctx = d2l.try_gpu() 
net. initialize(ctx=ctx, force_reinit=True) 
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trainer = gluon.Trainer(net.collect_params(), 'adam', 
{'learning_rate': lr}) 
for epoch in range(num_epochs) : 
start, l_sum, n = time.time(), 0.0, 0 
for batch in data_iter: 
center, context_negative, mask, label = [ 
data.as_in_context(ctx) for data in batch] 
with autograd.record(): 
pred = skip_gram(center, context_negative, net[0], net[1]) 
# 使 用 掩 码 变量 mask 来 避免 填充 项 对 损失 函数 计算 的 影响 
l = (loss(pred.reshape(label.shape), label, mask) * 
mask.shape[1] / mask.sum(axis=1) ) 
L. backward() 
trainer.step(batch_size) 
L_sum += 1L.sum().asscalar() 
n += l.size 
print('epoch %d, loss %.2f, time %.2fs' 
% (epoch + 1, l sum / n, time.time() - start)) 


MERNI UEH ARE VI SRB FRN T. 


In [24]: trai 


epoch 1, loss 
epoch 2, loss 
epoch 3, loss 
epoch 4, loss 
epoch 5, loss 


n(net, 0.005, 5) 


0.46, time 23.86s 
0.39, time 23.58s 
0.35, time 25.03s 
0.32, time 23.62s 
0.31, time 23.59s 


10.3.6 AFR BRA tee 
训练 好 词 嵌 入 模型 之 后 ， 我 们 可 以 根据 两 个 词 向 量 的 余弦 相似 度 表 示 词 与 词 之 间 在 语义 上 的 


相似 度 。 可 以 看 到 ， 


使 用 训练 得 到 的 词 髓 入 模型 时 ， 与 词 “chip” 语 义 最 接近 的 词 大 多 与 蕊 片 有 关 。 


In [25]: def get_similar_tokens(query_token, k, embed): 


get_ 


cosine sim=0. 
cosine sim=0. 
cosine sim=0. 


W = embed.weight.data() 

x = W[token_to_idx[query_token] ] 

# 添加 的 1e-9 是 为 了 数值 稳定 性 

cos = nd.dot(W, x) / (nd.sum(W * W, axis=1) * nd.sum(x * x) + le-9).sqrt() 
topk = nd.topk(cos, k=k+1, ret_typ='indices').asnumpy().astype('int32') 
for i in topk[1:]: # 除去 输入 词 


print('cosine sim=%.3f: %s' % (cos[i].asscalar(), (idx_to_token[i]))) 
similar_tokens('chip', 3, net[0]) 
551: microprocessor 


533: intel 
499: mips 


°336° 第 10 章 自然 语言 处 理 


可 以 使 用 Gluon 通过 负 采 样 训练 跳 字模 型 。 

二 次 采样 试图 尽 可 能 减轻 高 频 词 对 训练 词 底 入 模型 的 影响 。 

可 以 将 长 度 不 同 的 样本 填充 至 长 度 相 同 的 小 批量 ， 并 通过 掩 码 变量 区 分 非 填充 和 填充 ， 然 后 
只 令 非 填充 参与 损失 函数 的 计算 。 


练习 
(1) 在 创建 nn.Embedding 实例 时 设 参 数 sparse_grad=True， 训 练 是 否 可 以 加 速 ? 查阅 


MXNet 文档 ， 了 解 该 参数 的 意义 。 

(2) 我 们 用 batchify 函数 指定 DataLoader 实例 中 小 批量 的 读 取 方式 ， 并 打印 了 读 取 的 第 
一 个 批量 中 各 个 变量 的 形状 。 这 些 形状 该 如 何 计 算得 到 ? 

(3) 试 着 找 出 其 他 词 的 近义词 。 

(4) 调 一 调 超 参 数 ， 观 察 并 分 析 实 验 结果 。 

(5) 当 数 据 集 较 大 时 ， 我 们 通 第 在 迭代 模型 参数 时 才 对 当前 小 批量 里 的 中 心 词 采 样 背 景 词 和 嗓 
声 词 。 也 就 是 说 ， 同 一 个 中 心 词 在 不 同 的 迭代 周期 可 能 会 有 不 同 的 背景 词 或 骂 声 词 。 这 样 训练 有 哪 
些 好 处 ? 尝试 实现 该 训练 方法 。 





10.4 FIRA ( fastText ) | 


英语 单词 通常 有 其 内 部 结构 和 形成 方式 。 例 如 ， 我 们 可 以 从 “dog” 
“dogs” 和 “dogcatcher” 的 字面 上 推测 它们 的 关系 。 这 些 词 都 有 同一 个 词 
根 “dog”， 但 使 用 不 同 的 后 缀 来 改变 词 的 含义 。 而 且 ， 这 个 关联 可 以 推广 
至 其 他 词汇 。 例 如 ,“dog” 和 “dogs” 的 关系 如 同 “cat” 和 “cats” 的 关 
Ík, “boy” MI “boyfriend” RRUFE) “girl” M “girlfriend” HRR. X 
一 特点 并 非 为 英语 所 独 有 。 在 法 语 和 西班牙 语 中 ， 很 多 动词 根据 场景 不 同 有 40 多 种 不 同 的 形 
态 ， 而 在 芬兰 语 中 ， 一 个 名 词 可 能 有 15 种 以 上 的 形态 。 事 实 上 ， 构 词 学 (morphology) 作为 
语言 学 的 一 个 重要 分 文 ， 研 究 的 正 是 词 的 内 部 结构 和 形成 方式 。 


在 word2vec 中 ， 我 们 并 没有 直接 利用 构 词 学 中 的 信息 。 无 论 是 在 跳 字 模型 还 是 连续 词 
袋 模型 中 ， 我 们 都 将 形态 不 同 的 单词 用 不 同 的 向 量 来 表示 。 例 如 ,“dog” 和 “dogs” 分 别 用 
两 个 不 同 的 回 量 表 示 ， 而 模型 中 并 未 直接 表达 这 两 个 同 量 之 间 的 关系 。 鉴 于 此 ，fastText 提 
H J FERA (subword embedding) 的 方法 ， 从 而 试图 将 构 词 信息 引入 word2vec 中 的 跳 字 
YM, 


在 fastText 中 ， 每 个 中 心 词 被 表示 成 子 词 的 集合 。 下 面 我 们 用 单词 “where” 作 为 例子 来 
了 解 子 词 是 如 何 产生 的 。 首 先 ， 我 们 在 单词 的 首尾 分 别 添加 特殊 字符 “<” 和 “>” 以 区 分 作为 
前 后 缀 的 子 词 。 然 后 ， 将 单词 当成 一 个 由 字符 构成 的 序列 来 提取 nn 元 语法 。 例 如 ， 当 n=3 时 ， 
我 们 得 到 所 有 长 度 为 3 的 子 词 “<wh”“whe”“her”“ere”“re>”， 以 及 特殊 子 词 “<where>”。 
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在 fastText 中 ， 对 于 一 个 词 w， 我 们 将 它 所 有 长 度 在 3 ~ 6 的 子 词 和 特殊 子 词 的 并 集 记 为 
gw。 那 么 词典 则 是 所 有 词 的 子 词 集合 的 并 集 。 假 设 词典 中 子 词 g 的 向 量 为 zs， 那么 跳 字模 型 中 
词 w 作为 中 心 词 的 问 量 w 则 表示 成 


EES 
EEG, 
fastText 的 其 余部 分 同 跳 字 模型 一 致 ， 不 在 此 重复 。 可 以 看 到 ， 与 跳 字 模型 相 比 ，fastText 
中 词典 规模 更 大 ， 造 成 模型 参数 更 多 ， 同 时 一 个 词 的 向 量 需 要 对 所 有 子 词 同 量 求 和 ， 继 而 导致 
计算 复杂 度 更 高 。 但 与 此 同时 ， 较 生僻 的 复杂 单词 ， 甚 至 是 词典 中 没有 的 单词 ， 可 能 会 从 同 它 
结构 类 似 的 其 他 词 那 里 获取 更 好 的 词 同 量 表示 。 


小 结 
e fastText 提出 了 子 词 误 入 方法 。 它 在 word2vec 中 的 跳 字 模型 的 基础 上 ， 将 中 心 词 向 量 表示 成 
单词 的 子 词 向 量 之 和 。 
© 子 词 误 入 利用 构 词 上 的 规律 ， 通 常 可 以 提升 生僻 词 表 征 的 质量 。 


练习 

(1) 子 词 过 多 (例如 ，6 字 英 文 组合 数 约 为 3x10:) 会 有 什么 问题 ? 你 有 什么 办 法 来 解决 它 吗 ? 
提示 : 可 参 者 fastText 论文 3.2 FRAP, 

(2) 如 何 基 于 连续 词 袋 模型 设计 子 词 误 入 模型 ? 








10.5， 全 局 向 量 的 词 嵌入 ( GloVe ) 


让 我 们 先 回顾 一 下 word2vec 中 的 跳 字 模型 。 将 跳 字 模型 中 使 用 





iT. 


exp(uj ¥;) 


1] T 
exp Uu, V; 
ois p( k i) 


EP v Alu, PANERA i ie] w EAP ial A ee ed YA I) ee N, V={0,1,---,|VI- A 
词典 索引 集 。 


对 于 词 w， 它 在 数据 集中 可 能 多 次 出 现 。 我 们 将 每 一 次 以 它 作 为 中 心 词 的 所 有 背景 词 全 部 
汇总 并 保留 重复 元 素 ， 记 作 多 重 集 (multiset) C。 一 个 元 素 在 多 重 集中 的 个 数 称 为 该 元 素 的 重 
žk (multiplicity)。 举 例 来 说 ， 假 设 词 w 在 数据 集中 出 现 2 次 : 文本 序列 中 以 这 2 个 w 作为 中 
心 词 的 背景 窗口 分 别 包含 背景 词 索引 2, 1,5,2 和 2, 3,2,1。 那 么 多 重 集 C = {1,1, 2, 2, 2,2,3,5}, H 
中 元 素 1 的 重 数 为 2， 元 素 2 的 重 数 为 4， 元 素 3 和 5 的 重 数 均 为 1。 将 多 重 集 C 中 元 素 j 的 
重 数 记 作 xy: 它 表 示 了 整个 数据 集中 所 有 以 w 为 中 心 词 的 背景 窗口 中 词 w Se. HBA, Bb 
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字模 型 的 损失 函数 还 可 以 用 男 一 种 方式 表达 : 
=~) > x, log fij 
ieV jeV 
我 们 将 数据 集中 所 有 以 词 w 为 中 心 词 的 背景 词 的 数量 之 和 |C| 记 为 x;， 并 将 以 wi 为 中 心 
词 生成 背景 词 w, 的 条 件 概率 x,/x; WIE p;。 我 们 可 以 进一步 将 跳 字 模型 的 损失 函数 改写 为 
-> pylog qi 
iey jeV 
上 式 中 ，- 之 jev Pylogq; 计算 的 是 以 w 为 中 心 词 的 背景 词 条 件 概 率 分 布 p; 和 模型 预测 的 
条 件 概率 分 布 q; 的 交叉 米 ， 且 损失 函数 使 用 所 有 以 词 w 为 中 心 词 的 背景 词 的 数量 之 和 来 加 权 。 
最 小 化 上 式 中 的 损失 函数 会 令 预 测 的 条 件 概 率 分 布 尽 可 能 接近 真实 的 条 件 概率 分 布 。 


然而 ， 作 为 第 用 损失 函数 的 一 种 ， 交 广 灶 损 失 函 数 有 时 并 不 是 好 的 选择 。 一 方面 ， 正 如 我 们 
在 10.2 节 中 所 提 到 的 ， 令 模型 预测 % 成 为 合法 概率 分 布 的 代价 是 它 在 分 母 中 基于 整个 词典 的 累加 
项 。 这 很 容易 带 来 过 大 的 计算 开销 。 另 一 方面 ， 词 典 中 往往 有 大 量 生僻 词 ， 它 们 在 数据 集中 出 现 
AIRBUS MARKEER a] BR PPR AB ES IT BR BF EY Be ZS FUT FE FFAS EA o 


10.5.1 GloVe 模 型 


鉴于 此 ， 作 为 在 word2vec 之 后 提出 的 词 租 入 模型 ，GloVe 模型 采用 了 平方 损失 ， 并 基于 
该 损失 对 跳 字 模型 做 了 3 点 改动 1。 


(1) 使 用 非 概率 分 布 的 变量 ph = x, 和 qy = exp(o v;)， 并 对 它们 取 对 数 。 因 此 ， 平 方 损失 
项 是 (log pi, —logg},)” = (u; v; -log x). | 
(2) 为 每 个 词 w 增加 两 个 为 标量 的 模型 参数 : 中 心 词 偏差 项 b, AE E Co 
(3) 将 每 个 损失 项 的 权重 蔡 换 成 函数 Ax) MERX A(x) 是 值 域 在 [0, 1] 的 单调 递增 函数 。 
如 此 一 来 ，GloVe 模型 的 目标 是 最 小 化 损失 函数 
D> Ary uj ¥ +b +c; —log xy) 
ieV jeV 
其 中 权重 函数 A(x) 的 一 个 建议 选择 是 : 4x<ct e= 100), 4 A(x) =(x/c)* (ta =0.75), 
反之 令 h(x)=1. AA AO)=0, PROMS x, =0 的 平方 损失 项 可 以 直接 忽略 。 当 使 用 小 批量 随 
机 梯度 下 降 来 训练 时 ， 每 个 时 间 步 我 们 随机 采样 小 批量 非 零 x,;,， 然 后 计算 梯度 来 迭代 模型 参 
数 。 这 些 非 零 x; 是 预先 基于 整个 数据 集 计 算得 到 的 ， 包 含 了 数据 集 的 全 局 统计 信息 。 因 此 ， 
GloVe 模型 的 命名 取 “ 全 局 同 量 ”(Global Vectors) 之 意 。 


需要 强调 的 是 ， 如 果 词 w 出 现在 词 w 的 背景 窗口 里 ， 那 么 词 w 也 会 出 现在 词 w 的 背景 
窗口 里 。 也 就 是 说 ，% =Xj;。 不 同 于 word2vec 中 拟 合 的 是 非 对 称 的 条 件 概 率 p;，GloVe 模型 
拟 合 的 是 对 称 的 log x;。 因 此 ， 任 意 词 的 中 心 词 同 量 和 背景 词 同 量 在 GloVe 模型 中 是 等 价 的 。 
但 由 于 初始 化 值 的 不 同 ， 同 一 个 词 最 终 学 习 到 的 两 组 词 同 量 可 能 不 同 。 当 学 习 得 到 所 有 词 癌 量 
以 后 ，GloVe 模型 使 用 中 心 词 同 量 与 背景 词 同 量 之 和 作为 该 词 的 最 终 词 同 量 。 
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10.5.2 ”从 条 件 概率 比值 理解 GloVe 模 型 


我 们 还 可 以 从 另外 一 个 角度 来 理解 GloVe 模型 。 沿 用 本 节 前 面 的 符号 ，P(w, |w) 表示 数 
据 集中 以 w 为 中 心 词 生成 背景 词 w 的 条 件 概率 ， 并 记 作 p,。 作 为 源 于 某 大 型 语料库 的 真实 例 
F, R 10-1 中 列举 了 两 组 分 别 以 “ice”( 冰 ) Fl “steam” GRO 为 中 心 词 的 条 件 概 率 以 及 它 
们 之 间 的 比值 9。 


表 10-1 以 “ice 和 “steam” 为 中 心 词 的 条 件 概 率 以 及 它们 的 比值 


我 们 可 以 观察 到 以 下 现象 。 


e 对 于 与 “ice” 相 关 而 与 “steam” 不 相关 的 词 w， 如 ws = “solid” (H), RAHE 
条 件 概率 比值 较 大 ， 如 表 10-1 最 后 一 列 中 的 值 8.9; 

。 对 于 与 “ice” 不 相关 而 与 “steam” 相 关 的 词 w， 如 w, =“gas”( 气 体 )， 我 们 期 户 
条 件 概率 比值 较 小 ， 如 表 10-1 最 后 一 列 中 的 值 0.085; 

e 对 于 与 “ice” 和 “steam” 都 相关 的 词 wo Bw, =“water”( 水 ) ， 我 们 期 望 条 件 概 率 
比值 接近 1， 如 表 10-1 最 后 一 列 中 的 值 1.36; 

e 对 于 与 “ice” 和 “steam” 都 不 相关 的 词 w, Ow, =“fashion”( 时 尚 ) ， 我 们 期 望 条 
件 概率 比值 接近 1， 如 表 10-1 最 后 一 列 中 的 值 0.96。 


由 此 可 见 ， 条 件 概率 比值 能 比较 直观 地 表达 词 与 词 之 间 的 关系 。 我 们 可 以 构造 一 个 词 同 量 
函数 使 它 能 有 效 拟 合 条 件 概 率 比值 。 我 们 知道 ， 任 意 一 个 这 样 的 比值 需要 3 个 词 w、w 和 wo 
以 w, 作 为 中 心 词 的 条 件 概率 比值 为 pj /px。 我 们 可 以 找 一 个 函数 ， 它 使 用 词 辣 量 来 拟 合 这 个 条 
件 概 率 比 值 


f(u;, up, v) ~ 
ik 
这 里 函数 f 可 能 的 设计 并 不 唯一 ， 我 们 只 需 考 虑 一 种 较为 合理 的 可 能 性 。 注 意 到 条 件 概 率 比 
值 是 一 个 标量 ， 我 们 可 以 将 f 限制 为 一 个 标量 函数 ，f (wj, up v) = f(u- u) v). ZRK 
引 j 和 后 可 以 看 到 函数 f 应 该 满足 f(x)f(-x)=1， 因 此 一 种 可 能 是 f(x) =exp(x) ， 于 是 


iiini exp(u v;) Pik 
满足 最 右边 约 等 号 的 一 种 可 能 是 exp(zi v;) zap;, xa 是 一 个 常数 。 考 虑 到 Py = Xj’ Xp W 
对 数 后 u; v; ~logatlogx, -logx;。 我 们 使 用 额外 的 偏差 项 来 拟 合 -loga+logx， 例 如 ， 中 心 
词 偏差 项 b; 和 背景 词 偏 差 项 c: 
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u; v; +b; +c; ~ log x; 


对 上 式 左右 两 边 取 平 方 误 差 并 加 权 ， 我 们 可 以 得 到 GloVe 模型 的 损失 函数 。 


小 结 
© AEG LE, RAMA AKA Ag. GloVe 模型 采用 了 平方 损失 ， 并 通过 词 向 量 拟 合 预 
先 基于 整个 数据 集 计 算得 到 的 全 局 统计 信息 。 
© 任意 词 的 中 心 词 向 量 和 背景 词 向 量 在 GloVe 模型 中 是 等 价 的 。 


练习 

(1) 如 果 一 个 词 出 现在 另 一 个 词 的 背景 窗口 中 ， 如 何 利用 它们 之 间 在 文本 序列 的 距离 重新 设计 
条 件 概 率 pi 的 计算 方式 ? GER: 可 参考 GloVe 论文 4.2 $") 

(2) 对 于 任意 词 ， 它 在 GloVe 模型 的 中 心 词 偏差 项 和 背景 词 偏 差 项 是 否 等 价 ? 为 什么 ? 





10.6 ” 求 近义词 和 类 比 词 


在 10.3 节 中 ， 我 们 在 小 规模 数据 集 上 训练 了 一 个 word2vec ia] tk ATK 
型 ， 并 通过 词 同 量 的 余弦 相似 度 搜 索 近 义 词 。 实 际 中 ， 在 大 规模 语 料 上 预 
训练 的 词 同 量 常常 可 以 应 用 到 下 游 目 然 语 言 处 理 任务 中 。 本 市 将 演示 如 何 
用 这 些 预 训 练 的 词 癌 量 来 求 近义词 和 类 比 词 。 我 们 还 将 在 10.7 节 和 10.8. 市 
中 继续 应 用 预 训练 的 词 癌 量 。 


扫 码 直达 讨论 区 








10.6.1 使 用 预 训练 的 词 回 量 
MXNet 的 contrib.text 包 提 供 了 与 自然 语言 处 理 相 关 的 函数 和 类 (更 多 参见 GluonNLP T 
具 包 马 )。 下 面 查看 它 目 前 提供 的 预 训 练 词 嵌 入 的 名 称 。 


In [1]: from mxnet import nd 
from mxnet.contrib import text 


text.embedding. get_pretrained_file_names() .keys() 
Out[1]: dict_keys(['glove', 'fasttext']) 
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能 不 同 ， 或 是 在 不 同 数据 集 上 预 训练 得 到 的 。 


In [2]: print(text.embedding.get_pretrained_file_names('glove')) 


['glove.42B.300d.txt', 'glove.6B.50d.txt', 'glove.6B.100d.txt', 'glove.6B.200d.txt', 
= 'glove.6B.300d.txt', 'glove.840B.300d.txt', 'glove.twitter.27B.25d.txt', 

~  'glove.twitter.27B.50d.txt', 'glove.twitter.27B.100d.txt', 

~ 'glove.twitter.27B.200d.txt' ] 


© GluonNLP 工具 包 参 见 https://gluon-nlp.mxnet.io/。 
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预 训练 的 GloVe 模型 的 命名 规范 大 致 是 “模型 . (数据 集 .) 数据 集 词 数 . 词 向 量 维度 .txt”。 
更 多 信息 可 以 参考 GloVe 和 fastText 的 项 目 网 站 。 下 面 我 们 使 用 基于 维基 百科 子 集 预 训练 的 50 
维 GloVe 词 向 量 。 第 一 次 创建 预 训练 词 向 量 实例 时 会 自动 下 载 相应 的 词 向 量 ， 因 此 需要 联网 。 


In [3]: glove_6b50d = text.embedding.create( 
'glove', pretrained_file_name='glove.6B.50d.txt') 


打印 词典 大 小 。 其 中 含有 40 万 个 词 和 1 个 特殊 的 未 知 词 符号 。 


In [4]: Len(gLove_6b50d ) 


Out[4]: 400001 


我 们 可 以 通过 词 来 获取 它 在 词典 中 的 索引 ， 也 可 以 通过 索引 获取 词 。 


In [5]: glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367 ] 


Out[5]: (3367, 'beautiful') 


10.6.2 ”应 用 预 训练 词 回 量 
下 面 我 们 以 GloVe 模型 为 例 ， 展 示 预 训练 词 向 量 的 应 用 。 


1. 求 近义词 
这 里 重新 实现 10.3 节 中 介绍 过 的 使 用 余弦 相似 度 来 搜索 近义词 的 算法 。 为 了 在 求 类 比 词 
时 重用 其 中 的 求 上 近邻 (上 -nearest neighbor) 的 逻辑 ， 我 们 将 这 部 分 逻辑 单独 封装 在 knn 函数 中 。 


In [6]: def knn(W, x, k): 
# 添加 的 le-9 是 为 了 数值 稳定 性 
cos = nd.dot(W, x.reshape((-1,))) / ( 
(nd.sum(W * W, axis=1) + le-9).sqrt() * nd.sum(x * x).sqrt()) 
topk = nd.topk(cos, k=k, ret_typ='indices').asnumpy().astype('int32') 
return topk, [cos[i].asscalar() for i in topk] 


然后 ， 我 们 通过 预 训练 词 向 量 实例 embed 来 搜索 近义词 。 


In [7]: def get_similar_tokens(query_token, k, embed): 
topk, cos = knn(embed.idx_to_vec, 
embed. get_vecs_by_tokens([query_token]), k+1) 
for i, c in zip(topk[1:], cos[1:]): # 除去 输入 词 
print('cosine sim=%.3f: %s' % (c, (embed.idx_to_token[i]))) 


己 创 建 的 预 训 练 词 癌 量 实例 gLove_6b50d 的 词典 中 含 40 万 个 词 和 1 个 特殊 的 未 知 词 。 除 
去 输入 词 和 未 知 词 ， 我 们 从 中 搜索 与 “chip” 语 义 最 相近 的 3 个 词 。 

In [8]: get_similar_tokens('chip', 3, glove_6b50d) 

cosine sim=0.856: chips 


cosine sim=0.749: intel 
cosine sim=0.749: electronics 
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接 下 来 查找 “baby” 和 “beautiful” 的 近义词 。 


In [9]: get_similar_tokens('baby', 3, glove_6b50d) 


cosine sim=0.839: babies 
cosine sim=0.800: boy 
cosine sim=0.792: girl 


In [10]: get_similar_tokens('beautiful', 3, glove_6b50d) 


cosine sim=0.921: Lovely 
cosine sim=0.893: gorgeous 
cosine sim=0.830: wonderful 


2. 求 类 比 词 


除了 求 近义词 以 外 ， 我 们 还 可 以 使 用 预 训 练 词 向量 求 词 与 词 之 间 的 类 比 关 系 。 例 如 ， 
“man” (HA) : “woman” (% A) ::“son” LF) :“daughter” CJL) 是 一 个 类 比例 子 :“man” 
之 于 “woman” 相 当 于 “son” 之 于 “daughter”。 求 类 比 词 问题 可 以 定义 为 : 对 于 类 比 关 系 中 
HN 47ila:b::c:d, Aen 3 ila, bAlc, Rd. Wie] w 的 词 癌 量 为 vec(w)。 求 类 比 词 的 
思路 是 ， 搜 索 与 vec(c) + vec(b) - vec(a) 的 结果 向 量 最 相似 的 词 向 量 。 


In [11]: def get_analogy(token_a, token_b, token_c, embed): 
vecs = embed.get_vecs_by_tokens([token_a, token_b, token_c]) 
x = vecs[1] - vecs[0] + vecs[2] 
topk, cos = knn(embed.idx_to_vec, x, 1) 
return embed. idx_to_token[topk[0] ] 


WESTF B-r” Att. 
In [12]: get_analogy('man', 'woman', 'son', glove_6b50d) 
Out[12]: 'daughter' 


“首都 - A” ZK: “beijing” (AER) ZF “china” CHH) FA4F “tokyo” (AR) 之 
FHA? 答案 应 该 是 “japan”( 日 本 )。 


In [13]: get_analogy('beijing', 'china', 'tokyo', glove_6b50d) 
Out[13]: 'japan' 


“形容 词 - 形容 词 最 高 级 ”类 比 :“bad”( 坏 的 ) ZF “worst” RAW) 相当 于 “big”( 大 
的 ) 之 于 什么 ? 答案 应 该 是 “biggest”( 最 大 的 )。 


In [14]: get_analogy('bad', 'worst', 'big', glove_6b50d) 
Out[14]: 'biggest' 


“动词 一 般 时 - 动词 过 去 时 ”类 比 :“do”( 做 ) 之 于 “did”( 做 过 ) 相当 于 “go”( 去 ) 之 
于 什么 ? 答案 应 该 是 “went”( 去 过 )。 


10.7 文本 情感 分 类 : 使 用 循环 神经 网 络 + 343% 


In [15]: get_analogy('do', 'did', 'go', glove_6b50d) 


Out[15]: 'went' 


小 结 
© 在 大 规模 语 料 上 预 训练 的 词 向 量 常常 可 以 应 用 于 下 游 自然 语言 处 理 任务 中 。 
© 可 以 应 用 预 训练 的 词 向 量 求 近 义 词 和 类 比 词 。 


练习 
(1) 测试 一 下 fastText 的 结果 。 值 得 一 提 的 是 ，fastText 有 预 训练 的 中 文 词 向 量 (pretrained_ 
file_name='wiki.zh.vec'). 


(2) 如 果 词 典 特别 大 ， 如 何 提升 近义词 或 类 比 词 的 搜索 速度 ? 








10.7 文本 情感 分 类 : 使 用 循环 神经 网 络 


文本 分 类 是 自然 语言 处 理 的 一 个 常见 任务 ， 它 把 一 段 不 定 长 的 文本 序 
列 变换 为 文本 的 类 别 。 本 节 关 注 它 的 一 个 子 问题 ， 使 用 文本 情感 分 类 来 分 
析 文 本 作者 的 情绪 。 这 个 问题 也 叫 情感 分 析 (sentiment analysis)， 并 有 着 
广泛 的 应 用 。 例 如 ， 我 们 可 以 分 析 用 户 对 产品 的 评论 并 统计 用 户 的 满意 
度 ， 或 者 分 析 用 户 对 市 场 行 情 的 情绪 并 用 以 预测 接 下 来 的 行情 。 


同 求 近义词 和 类 比 词 一 样 ， 文 本 分 类 也 属于 词 租 入 的 下 游 应 用 。 在 本 市 中 ,我们 将 应 用 预 
训练 的 词 向 量 和 含 多 个 隐藏 层 的 双向 循环 神经 网 络 ， 来 判断 一 段 不 定 长 的 文本 序列 中 包含 的 是 
正面 还 是 负面 的 情绪 。 


在 实验 开始 前 ， 导 入 所 需 的 包 或 模块 。 


In [1]: import collections 
import d2Lzh as d21 
from mxnet import gluon, init, nd 
from mxnet.contrib import text 
from mxnet.gluon import data as gdata, loss as gloss, nn, rnn, utils as gutils 
import os 
import random 
import tarfile 





10.7.1 文本 情感 分 类 数据 集 


我 们 使 用 斯 坦 福 的 IMDb 数据 集 (Large Movie Review Dataset) 作为 文本 情感 分 类 的 数据 
集 所 。 这 个 数据 集 分 为 训练 和 测试 用 的 两 个 数据 集 ， 分 别 包含 25 000 条 从 IMDb 网 站 下 载 的 
关于 电影 的 评论 。 在 每 个 数据 集中 ， 标 签 为 “正面 ”和 “负面 ”的 评论 数量 相等 。 
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1. 读 取 数据 集 


首先 下 载 这 个 数据 集 到 . . /data 路 径 下 ， 然 后 解压 至 . . /data/aclImdb 路 径 下 。 


In [2]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def download_imdb(data_dir='../data'): 
url = ('http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz') 
shal = '01ada507287d82875905620988597833ad4e0903 ' 
fname = gutils.download(url, data_dir, shal_hash=shal) 
with tarfile.open(fname, 'r') as f: 
f.extractall(data_dir) 


down Lload_imdb() 


接 下 来 ， 读 取 训 练 数据 集 和 测试 数据 集 。 每 个 样本 是 一 条 评论 及 其 对 应 的 标签 : 1 表示 “IE 
m”, 0 表示 “4A TH”. 


In [3]: def read_imdb(folder='train'): # 本 国 数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
data = [] 


for label in ['pos', 'neg']: 
folder_name = os.path.join('../data/aclImdb/', folder, label) 
for file in os.listdir(folder_name): 
with open(os.path.join(folder_name, file), 'rb') as f: 
review = f.read().decode('utf-8').replace('\n', '').lower() 
data.append([review, 1 if label == 'pos' else 0]) 
random. shuf f le(data) 
return data 


train_data, test_data = read_imdb(‘train’), read_imdb( ‘test’ ) 


2. 预 处 理 数据 集 


我 们 需要 对 每 条 评论 做 分 词 ， 从 而 得 到 分 好 词 的 评论 。 这 里 定义 的 get_tokenized_imdb 
函数 使 用 最 简单 的 方法 一 一 基于 空格 进行 分 词 。 


In [4]: def get_tokenized_imdb(data): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
def tokenizer(text): 


return [tok.lower() for tok in text.split(' ')] 
return [tokenizer(review) for review, _ in data] 


现在 ， 我 们 可 以 根据 分 好 词 的 训练 数据 集 来 创建 词典 了 。 我 们 在 这 里 过 滤 反 了 出 现 次 数 少 
于 5 的 词 。 


In [5]: def get_vocab_imdb(data): # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
tokenized_data = get_tokenized_imdb(data) 
counter = collections.Counter([tk for st in tokenized_data for tk in st]) 
return text.vocab.Vocabulary(counter, min_freq=5) 


vocab = get_vocab_imdb(train_data) 
'# words in vocab:', lLen(vocab) 


Out[5]: ('# words in vocab:', 46151) 


10.7 文本 情感 分 类 : 使 用 循环 神经 网 络 -345° 


因为 每 条 评论 长 度 不 一 致 ， 所 以 不 能 直接 组 合成 小 批量 ， 我 们 定义 preprocess_imdb K 
数 对 每 条 评论 进行 分 词 ， 并 通过 词典 转换 成 词 索 引 ， 然 后 通过 截断 或 者 补 0 来 将 每 条 评论 长 度 
固定 成 500。 


In [6]: def preprocess_imdb(data, vocab): # 本 国 数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 
max_L = 500 # 将 每 条 评论 通过 截断 或 者 补 0， 使 得 长 度 变 成 500 


def pad(x): 
return x[:max_l] if len(x) > max_L else x + [0] * (max_l - len(x)) 


tokenized_data = get_tokenized_imdb(data) 

features = nd.array([pad(vocab.to_indices(x)) for x in tokenized_data] ) 
labels = nd.array([score for _, score in data]) 

return features, labels 


3. 创建 数据 返 代 器 
现在 ， 我 们 创建 数据 迭代 器 。 每 次 迭代 将 返回 一 个 小 批量 的 数据 。 


In [7]: batch_size = 64 
train_set = gdata.ArrayDataset(*preprocess_imdb(train_data, vocab) ) 
test_set = gdata.ArrayDataset(*preprocess_imdb(test_data, vocab) ) 
train_iter = gdata.DataLoader(train_set, batch_size, shuffle=True) 
test_iter = gdata.DataLoader(test_set, batch_size) 


打印 第 一 个 小 批量 数据 的 形状 以 及 训练 集中 小 批量 的 个 数 。 


In [8]: for X, y in train_iter: 
print('X', X.shape, 'y', y.shape) 
break 
'#batches:', Len(train_iter) 


X (64, 500) y (64,) 


Out[8]: ('#batches:', 391) 


10.7.2 使 用 循环 神经 网 络 的 模型 


在 这 个 模型 中 ， 每 个 词 先 通过 和 藤 入 层 得 到 特征 向 量 。 然 后 ， 我 们 使 用 双向 循环 神经 网 络 对 
特征 序列 进一步 编码 得 到 序列 信息 。 最 后 ， 我 们 将 编码 的 序列 信息 通过 全 连接 层 变换 为 输出 。 
具体 来 说 ， 我 们 可 以 将 双向 长 短期 记忆 在 最 初时 间 步 和 最 终 时 间 步 的 隐藏 状态 连结 ， 作 为 特征 
序列 的 表征 传递 给 输出 层 分 类 。 在 下 面 实现 的 BiRNN 类 中 ，Embedding XAB RAZ, LSTM 
实例 即 为 序列 编码 的 隐藏 层 ，Dense 实例 即 生 成 分 类 结果 的 输出 层 。 


In [9]: class BiRNN(nn.Block): 
def __init__(self, vocab, embed_size, num_hiddens, num_layers, **kwargs): 
super (BiRNN, self).__init__(**kwargs) 
self.embedding = nn.Embedding(len(vocab), embed_size) 
# bidirectional 设 为 True 即 得 到 双向 循环 神经 网 络 


self.encoder = rnn.LSTM(num_hiddens, num_layers=num_layers, 
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def 


bidirectional=True, input_size=embed_size) 
self.decoder = nn.Dense(2) 


forward(self, inputs): 

# inputs 的 形状 是 (批量 大 小 ， 词 数 ) ， 因为 LSTM 需 要 将 序列 作为 第 一 维 ， 所 以 将 输入 转 置 后 
# 再 提取 词 特征 ， 输 出 形状 为 ( 词 数 ， 批 量 大 小 ， 词 向 量 维度 ) 

embeddings = self.embedding(inputs.T) 

# rnn.LSTM 只 传 入 输入 embeddings， 因 此 只 返回 最 后 一 层 的 隐藏 层 在 各 时 间 步 的 隐藏 状 
# 态 。outputs 形 状 是 ( 词 数 ， 批 量 大 小 ，2 * 隐藏 单元 个 数 ) 

outputs = self.encoder (embeddings) 

# 连结 初始 时 间 步 和 最 终 时 间 步 的 隐藏 状态 作为 全 连接 层 输 入 。 它 的 形状 为 

# (批量 大 小 ，4 * 隐藏 单元 个 数 ) 

encoding = nd.concat(outputs[0], outputs[-1]) 

outs = self.decoder (encoding) 

return outs 


创建 一 个 含 2 个 隐藏 层 的 双 癌 循环 神经 网 络 。 


In [10]: embed_size, num_hiddens, num_layers, ctx = 100, 100, 2, d2l.try_all_gpus() 
net = BiRNN(vocab, embed_size, num_hiddens, num_layers) 
net. initialize(init.Xavier(), ctx=ctx) 


1. 加 载 预 训练 的 词 向 量 


由 于 情感 分 类 的 训练 数据 集 并 不 是 很 大 ， 为 应 对 过 拟 合 ， 我 们 将 直接 使 用 在 更 大 规模 语 料 
上 预 训练 的 词 同 量 作为 每 个 词 的 特征 癌 量 。 这 里 ， 我 们 为 词典 vocab 中 的 每 个 词 加 载 100 维 


的 GloVe 词 回 量 。 


In [11]: glove_embedding = text.embedding.create( 
'glove', pretrained_file_name='glove.6B.100d.txt', vocabulary=vocab) 


然后 ， 我 们 将 用 这 些 词 癌 量 作 为 评论 中 每 个 词 的 特征 向 量 。 注 意 ， 预 训练 词 向 量 的 维度 需要 
与 创建 的 模型 中 的 舱 入 层 输 出 大 小 embed_size 一 致 。 此 外 ， 在 训练 中 我 们 不 再 更 新 这 些 词 向 量 。 


In [12]: net.embedding.weight.set_data(glove_embedding.idx_to_vec) 
net.embedding.collect_params().setattr('grad_req', 'null') 


2. 训练 模型 


JA Pe AY AFP Ul RAY T o 


In [13]: lr, num_epochs = 0.01, 5 
trainer = gluon.Trainer(net.collect_params(), 'adam', {'learning_rate': lr}) 


loss = 


gloss.SoftmaxCrossEntropyLoss() 


d2l.train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs) 


training on [gpu(0), gpu(1), gpu(2), gpu(3)] 


epoch 1, loss 0.5618, train acc 0.701, test acc 0.816, time 52.4 sec 
epoch 2, loss 0.4011, train acc 0.822, test acc 0.829, time 51.2 sec 
epoch 3, loss 0.3627, train acc 0.840, test acc 0.843, time 52.1 sec 
epoch 4, Loss 0.3265, train acc 0.860, test acc 0.843, time 51.3 sec 
epoch 5, loss 0.2867, train acc 0.880, test acc 0.847, time 53.3 sec 


10.8 ”文本 情感 分 类 : 使 用 卷 积 神经 网 络 (textCNN) * 347° 


最 后 ， 定 义 预 测 函 数 。 
In [14]: # 本 函数 已 保存 在 d2Lzh 包 中 方便 以 后 使 用 


def predict_sentiment(net, vocab, sentence): 


sentence = nd.array(vocab.to_indices(sentence), ctx=d21l.try_gpu() ) 
label = nd.argmax(net(sentence.reshape((1, -1))), axis=1) 
return 'positive' if lLabel.asscalar() == 1 else 'negative' 


下 面 使 用 训练 好 的 模型 对 两 个 简单 句子 的 情感 进行 分 类 。 

In [15]: predict_sentiment(net, vocab, ['this', 'movie', 'is', 'so', 'great']) 
Out[15]: 'positive' | 

In [16]: predict_sentiment(net, vocab, ['this', 'movie', 'is', 'so', 'bad']) 


Out[16]: 'negative' 


小 结 
© 文本 分 类 把 一 段 不 定 长 的 文本 序列 变换 为 文本 的 类 别 。 它 属于 词 嵌 入 的 下 游 应 用 。 
© 可 以 应 用 预 训 练 的 词 向 量 和 循环 神经 网 络 对 文本 的 情感 进行 分 类 。 


练习 

(1) 增加 和 迭代 周期 。 训 练 后 的 模型 能 在 训练 和 测试 数据 集 上 得 到 怎样 的 准确 率 ? 再 调节 其 他 超 
参数 试 试 ? 

(2) 使 用 更 大 的 预 训 练 词 向 量 ， 如 300 维 的 GloVe 词 向 量 ， 能 否 提升 分 类 准确 率 ? 

(3) 使 用 spaCy 分 词 工 具 ， 能 否 提升 分 类 准确 率 ? 你 需要 安装 spaCy (pip install spacy )， 并 且 
安装 英文 包 (python -m spacy download en )。 在 代码 中 ， 先 导入 spaCy (import spacy), AG 
加 载 spaCy 英文 包 (spacy_en = spacy.Load('en') )。 最 后 定义 函数 def tokenizer(text) : 
return [tok.text for tok in spacy_en.tokenizer(text)] 并 替换 原来 的 基于 空格 分 词 
的 tokenizer 函数 。 需 要 注意 的 是 ，GloVe 词 向 量 对 于 名 词 词组 的 存储 方式 是 用 “-” 连 接 各 个 单词 ， 
例如 ， 词 组 “new york” Æ GloVe 词 向 量 中 的 表示 为 “new-york”， 而 使 用 spaCy 分 词 之 后 “new york” 
的 存储 可 能 是 “new york”. 





10.8 文本 情感 分 类 : 使 用 卷 积 神经 网 络 ( textCNN ) 


在 第 5 章 中 我 们 探究 了 如 何 使 用 二 维 卷 积 神经 网 络 来 处 理 二 维 图 像 数 扫 码 直达 讨论 区 
据 。 在 之 前 的 语言 模型 和 文本 分 类 任务 中 ， 我 们 将 文本 数据 看 作 只 有 一 个 
维度 的 时 间 序 列 ， 并 很 自然 地 使 用 循环 神经 网 络 来 表征 这 样 的 数据 。 其 
实 ， 我 们 也 可 以 将 文本 当 作 一 维 图 像 ， 从 而 可 以 用 一 维 卷 积 神经 网 络 来 捕 
提 临 近 词 之 间 的 关联 。 本 节 将 介绍 将 卷 积 神经 网 络 应 用 到 文本 分 析 的 开创 
HET FZ ——— textCNN ™, 
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首先 导入 实验 所 需 的 包 和 模块 。 


In [1]: import d2Lzh as d21 
from mxnet import gluon, init, nd 
from mxnet.contrib import text 
from mxnet.gluon import data as gdata, loss as gloss, nn 


10.8.1 一 维 卷 积 层 


在 介绍 模型 前 我 们 先 来 解释 一 维 卷 积 层 的 工作 原理 。 与 二 维 卷 积 层 一 样 ， 一 维 卷 积 层 使 用 
一 维 的 互相 关 运 算 。 在 一 维 互 相关 运算 中 ， 卷 积 窗口 从 输入 数组 的 最 左 方 开始 ， 按 从 左 往 右 的 
顺序 ， 依 次 在 输入 数组 上 滑动 。 当 卷 积 窗口 滑动 到 菜 一 位 置 时 ， 窗 口中 的 输入 子 数 组 与 核 数 组 
按 元 素 相 乘 并 求 和 ， 得 到 输出 数组 中 相应 位 置 的 元 素 。 如 图 10-4 所 示 ， 输 入 是 一 个 宽 为 7 的 
一 维 数组 ， 核 数组 的 宽 为 2。 可 以 看 到 输出 的 宽度 为 7-2+1=6， 且 第 一 个 元 素 是 由 输入 的 最 
左边 的 宽 为 2 的 子 数 组 与 核 数 组 按 元 素 相 乘 后 再 相 加 得 到 的 : 0x1+1x2=2。 


核 


输入 输出 
:| 
图 10-4 一 维 互 相关 运算 


下 面 我 们 将 一 维 互 相关 运算 实现 在 corrid 函数 里 。 它 接受 输入 数组 X 和 核 数 组 K， 并 输 
出 数组 Y. 


In [2]: def corrlid(X, K): 
w = K.shape[0] 
Y = nd.zeros((X.shape[0] - w + 1)) 
for i in range(Y.shape[0]): 
YCij] = (X{i: i + w] * K).sum() 
return Y 


让 我 们 复 现 图 10-4 中 一 维 互 相关 运算 的 结果 。 


In. (Sif XR = nd.array((0; 1, 2,3, 4, 5, 6]), nd.array([{1, 2]) 
corrlid(X, K) 





Out[3]: 
(22. . 5.7 Seeds 340 0.4 
<NDArray 6 @cpu(0)> 
多 输入 通道 的 一 维 互相 关 运 算 也 与 多 输入 通道 的 二 维 互 相关 运算 类 似 : 在 每 个 通道 上 ， 将 
核 与 相应 的 输入 做 一 维 互 相关 运算 ， 并 将 通道 之 间 的 结果 相 加 得 到 输出 结果 。 图 10-5 展示 了 
含 3 个 输入 通道 的 一 维 互 相关 运算 ， 其 中 阴影 部 分 为 第 一 个 输出 元 素 及 其 计算 所 使 用 的 输入 和 
核 数 组 元 素 : 0x1+1x2+1x3+2x4+2x(-1)+3x(-3)=2. 
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输出 


- Eee 


图 10-5 含 3 个 输入 通道 的 一 维 互相 关 运 算 





让 我 们 复 现 图 10-5 中 多 输入 通道 的 一 维 互相 关 运 算 的 结果 。 


In [4]: def corrid_multi_in(X, K): 
# 首先 沿 着 Xx 和 K 的 第 9 维 (通道 维 ) 遍历 。 然 后 使 用 * 将 结果 列表 变 成 add_n 函 数 的 位 置 参数 
# (positional argument) 来 进行 相 加 
return nd.add_n(*[corrid(x, k) for x, k im zip(X, K)]) 


X = nd.array(((6, 25 25 3,:4,-8, 6]. 

Lis 2; 3, 4, 5, 6, aF 

[2, 3, 4, 5, 6, T, 8]]) 
K = nd.array([[1, 2]; [3, 4], [-1,.-3]]) 
corrid_multi_in(X, K) 


Out[4]: 
a Fae Face ee: eee i o 
<NDArray 6 @cpu(0)> 
由 二 维 互 相关 运算 的 定义 可 知 ， 多 输入 通道 的 一 维 互 相关 运算 可 以 看 作 单 输入 通道 的 二 维 
互相 关 运 算 。 如 图 10-6 所 示 ， 我 们 也 可 以 将 图 10-5 中 多 输入 通道 的 一 维 互 相关 运算 以 等 价 的 单 
输入 通道 的 二 维 互相 关 运 算 呈 现 。 这 里 核 的 高 等 于 输入 的 高 。 图 10-6 中 的 阴影 部 分 为 第 一 个 输 
出 元 素 及 其 计算 所 使 用 的 输入 和 核 数 组 元 素 : 2x(-D+3x(-3)+1x3+2x4+0xl+1x2=2。 


核 输出 


- TEE 


10-6 单 输入 通道 的 二 维 互 相关 运算 





图 10-4 和 图 10-5 中 的 输出 都 只 有 一 个 通道 。 我 们 在 5.3 节 中 介绍 了 如 何在 二 维 卷 积 层 中 
指定 多 个 输出 通道 。 类 似 地 ， 我 们 也 可 以 在 一 维 卷 积 层 指 定 多 个 输出 通道 ， 从 而 拓展 卷 积 层 中 
的 模型 参数 。 


10.8.2 ”时 序 最 大 池 化 层 
类 似 地 ， 我 们 有 一 维 池 化 层 。textCNN 中 使 用 的 时 序 最 大 池 化 (max-over-time pooling) Æ 
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实际 上 对 应 一 维 全 局 最 大 池 化 层 : 假设 输入 包含 多 个 通道 ， 各 通道 由 不 同时 间 步 上 的 数值 组 
成 ， 各 通道 的 输出 即 该 通道 所 有 时 间 步 中 最 大 的 数值 。 因 此 ， 时 序 最 大 池 化 层 的 输入 在 各 个 通 
道上 的 时 间 步 数 可 以 不 同 。 


为 提升 计算 性 能 ， 我 们 常常 将 不 同 长 度 的 时 序 样本 组 成 一 个 小 批量 ， 并 通过 在 较 短 序列 后 
附加 特殊 字符 (如 0) 令 批 量 中 各 时 序 样本 长 度 相同 。 这 些 人 为 添加 的 特殊 字符 当然 是 无 意义 
的 。 由 于 时 序 最 大 池 化 的 主要 目的 是 抓 取 时 序 中 最 重要 的 特征 ， 它 通常 能 使 模型 不 受 人 为 添加 
字符 的 影响 。 


10.8.3” 读 取 和 了 预 处 理 IMDb 数 据 集 


我 们 依然 使 用 和 10.7 节 中 相同 的 IMDb 数据 集 做 情感 分 析 。 以 下 读 取 和 预 处 理 数 据 集 的 
步骤 与 10.7 节 中 的 相同 。 
In [5]: batch. size = 64 
d21.download_imdb() 
train_data, test_data = d2l.read_imdb('train'), d2l.read_imdb('test') 
vocab = d21l.get_vocab_imdb(train_data) 
train_iter = gdata.DataLoader (gdata.ArrayDataset ( 
xd21l.preprocess_imdb(train_data, vocab)), batch_size, shuffle=True) 
test_iter = gdata.DataLoader (gdata.ArrayDataset ( 
xd21l.preprocess_imdb(test_data, vocab)), batch_size) 


10.8.4 textCNN 模 型 


textCNN 模型 主要 使 用 了 一 维 卷 积 层 和 时 序 最 大 池 化 层 。 假 设 输入 的 文本 序列 由 nn 个 词组 
成 ， 每 个 词 用 4 维 的 词 同 量 表示 。 那 么 输入 样本 的 宽 为 mw 高 为 1， 输 入 通道 数 为 4。textCNN 
的 计算 主要 分 为 以 下 几 步 。 


(1) 定义 多 个 一 维 郑 积 核 ， 并 使 用 这 些 卷 积 核对 输入 分 别 做 卷 积 计算 。 宽 度 不 同 的 卷 积 核 
可 能 会 捕捉 到 不 同 个 数 的 相 邻 词 的 相关 性 。 

(2) 对 输出 的 所 有 通道 分 别 做 时 序 最 大 池 化 ， 再 将 这 些 通道 的 池 化 输出 值 连结 为 向 量 。 

(3) 通过 全 连接 层 将 连结 后 的 癌 量 变换 为 有 关 各 类 别 的 输出 。 这 一 步 可 以 使 用 丢弃 层 应 对 
过 拟 合 。 


图 10-7 用 一 个 例子 解释 了 textCNN 的 设计 。 这 里 的 输入 是 一 个 有 11 个 词 的 句子 ， 每 个 词 
FA 6 维 词 回 量 表示 。 因 此 输入 序列 的 宽 为 11， 输 入 通道 数 为 6。 给 定 2 个 一 维 卷 积 核 ， 核 宽 分 
别 为 2 和 4， 输 出 通道 数 分 别 设 为 4 和 5$。 因 此， 一 维 卷 积 计算 后 ，4 个 输出 通道 的 宽 为 11-2 
+1=10， 而 其 他 5 个 通道 的 宽 为 11-4+1=8。 尽 管 每 个 通道 的 宽 不 同 ， 我 们 依然 可 以 对 各 个 通 
道 做 时 序 最 大 池 化 ， 并 将 9 个 通道 的 池 化 输出 连结 成 一 个 9 维 向 量 。 最 终 ， 使 用 全 连接 将 9 维 
向 量变 换 为 2 维 输出 ， 即 正面 情感 和 负面 情感 的 预测 。 
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输出 情感 类 别 数 : 2 
[I| “(使 用 全 连接 层 ) 
输出 个 数 : 4 = = 输出 个 数 : 5 
(各 通道 做 时 序 最 大 池 化 ) - 、、( 各 通道 做 时 序 最 大 池 化 ) 


~ 


输出 通道 数 : 4 输出 通道 数 : 5 
各 输出 通道 宽 : 各 输出 通道 宽 : 
11-2+1=10 11-4+1=8 
(SARAH 2) ( 卷 积 核 宽 4) 






: A 
{E 
: +4 输入 宽 : 11 (11 个 词 ) 
7 输入 通道 数 : 6 
7 (每 个 词 用 6 维 词 向 量 表 示 ) 
mete 2 
也 a we oe fet 
see RS Stevi z58 
图 


10-7 textCNN 的 设计 


下 面 我 们 来 实现 textCNN 模型 。 与 10.7 节 相 比 ， 除 了 用 一 维 卷 积 层 丛 换 循环 神经 网 络 外 ， 
这 里 我 们 还 使 用 了 两 个 嵌入 层 ， 一 个 的 权重 固定 ， 另 一 个 的 权重 则 参与 训练 。 


In [6]: class TextCNN(nn.Block): 
def __init__(self, vocab, embed_size, kernel_sizes, num_channels, 
xxkwargs) : 
super(TextCNN, self).__init__(**kwargs) 
self.embedding = nn.Embedding(len(vocab), embed_size) 
# 不 参与 训练 的 嵌入 层 
self.constant_embedding = nn.Embedding(len(vocab), embed_size) 
self.dropout = nn.Dropout(0.5) 
self.decoder = nn.Dense(2) 
# 时 序 最 大 池 化 层 没 有 权重 ， 所 以 可 以 共用 一 个 实例 
self.pool = nn.GlobalMaxPool1D() 
self.convs = nn.Sequential() # 创建 多 个 一 维 卷 积 层 
for c, k in zip(num_channels, kernel_sizes): 
self.convs.add(nn.ConviD(c, k, activation='relu')) 


def forward(self, inputs): ` 
# 将 两 个 形状 是 (批量 大 小 ， 词 数 ， 词 向 量 维度 ) RAR ARs oles 
embeddings = nd.concat( 
self.embedding(inputs), self.constant_embedding(inputs) , dim=2) 
# 根据 Conv1D 要 求 的 输入 格式 ， 将 词 向 量 维 ， 即 一 维 卷 积 层 的 通道 维 ， 变 换 到 前 一 维 


。352。 第 10 章 自然 语言 处 理 


100。 


embeddings = embeddings.transpose((0, 2, 1)) 
# 对 于 每 个 一 维 卷 积 层 ， 在 时 序 最 大 池 化 后 会 得 到 一 个 形状 为 (批量 大 小 ， 通 道 大 小 ，1) 的 
# NDArray。 使 用 fLatten 函 数 去 掉 最 后 一 维 ， 然 后 在 通道 维 上 连结 
encoding = nd.concat(*[nd.flatten( 
self.pool(conv(embeddings))) for conv in self.convs], dim=1) 
# 应 用 丢弃 法 后 使 用 全 连接 层 得 到 输出 
outputs = self.decoder(self.dropout(encoding)) 
return outputs 


创建 一 个 TextCnn 实例 。 它 有 3 个 卷 积 层 ， 它 们 的 核 宽 分 别 为 3、4 和 5， 输出 通道 数 均 为 


In [7]: embed_size, kernel_sizes, nums_channels = 100, [3, 4, 5], [100, 100, 100] 
d21l.try_all_gpus() 
net = TextCNN(vocab, embed_size, kernel_sizes, nums_channelLs) 


crx 
net. initialize(init.Xavier(), ctx=ctx) 


1. 加 载 预 训练 的 词 向 量 
同 10.7 节 一 样 ， 加 载 预 训练 的 100 维 GloVe 词 向 量 ， 并 分 别 初始 化 嵌入 层 embedding 和 


constant_embedding， 前 者 权重 参与 训练 ， 而 后 者 权重 固定 。 


In [8]: glove_embedding = text.embedding.create( 

'glove', pretrained_file_name='glove.6B.100d.txt', vocabulary=vocab) 
net.embedding.weight.set_data(glove_embedding.idx_to_vec) 
net.constant_embedding.weight.set_data(glove_embedding.idx_to_vec) 
net.constant_embedding.collect_params().setattr('grad_req', 'null') 


2. 训练 模型 
现在 就 可 以 训练 模型 了 。 


In [9]: Lr，num_epochs = 0.001，5 
trainer = gluon.Trainer(net.collect_params(), 'adam', {'learning_rate': lr}) 
loss = gloss.SoftmaxCrossEntropyLoss() 
d21l.train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs) 


training on [gpu(0), gpu(1), gpu(2), gpu(3)] 

epoch 1, loss 0.5842, train acc 0.721, test acc 0.808, time 12.8 sec 
epoch 2, loss 0.3608, train acc 0.842, test acc 0.850, time 12.8 sec 
epoch 3, loss 0.2646, train acc 0.891, test acc 0.864, time 12.9 sec 
epoch 4, Loss 0.1720, train acc 0.935, test acc 0.860, time 12.6 sec 
epoch 5, loss 0.1027, train acc 0.964, test acc 0.865, time 12.7 sec 


下 面 ， 我 们 使 用 训练 好 的 模型 对 两 个 简单 句子 的 情感 进行 分 类 。 


In [10]: d2l.predict_sentiment(net, vocab, ['this', 'movie', 'is', 'so', 'great']) 


Out[10]: 'positive' 


10.9 ”编码 器 - 解码 器 (seq2seq) + 353° 


In [11]: d2l.predict_sentiment(net, vocab, ['this', 'movie', 'is', 'so', 'bad']) 


Out[11]: 'negative' 


可 以 使 用 一 维 卷 积 来 表征 时 序数 据 。 

多 输入 通道 的 一 维 互 相关 运算 可 以 看 作 单 输入 通道 的 二 维 互相 关 运 算 。 
时 序 最 大 池 化 层 的 输入 在 各 个 通道 上 的 时 间 步 数 可 以 不 同 。 

textCNN 主要 使 用 了 一 维 卷 积 层 和 时 序 最 大 池 化 层 。 


练习 

(1) 动手 调 参 ， 从 准确 率 和 运行 效率 比较 情感 分 析 的 两 类 方法 : 使 用 循环 神经 网 络 和 使 用 卷 积 
神经 网 络 。 

(2) 使 用 上 一 节 练 习 中 介绍 的 3 种 方法 (调节 超 参 数 、 使 用 更 大 的 预 训练 词 向 量 和 使 用 spaCy 
分 词 工 具 )， 能 使 模型 在 测试 集 上 的 准确 率 进 一 步 提高 吗 ? 

(3) 还 能 将 textCNN 应 用 于 自然 语言 处 理 的 哪些 任务 中 ? 





10.9 ”编码 器 -解码 器 ( seq2seq ) 


我 们 已 经 在 10.7 节 和 10.8 节 中 表征 并 变换 了 不 定 长 的 输入 序列 。 但 
在 目 然 语言 处 理 的 很 多 应 用 中 ， 输 入 和 输出 都 可 以 是 不 定 长 序列 。 以 机 器 
翻译 为 例 ， 输 入 可 以 是 一 段 不 定 长 的 英语 文本 序列 ， 输 出 可 以 是 一 段 不 定 
长 的 法 语文 本 序列 ， 例 如 


RHA: “They” “are” “watching”, “.” 





ie: “Ils” “regardent” “.” 


当 输 入 和 输出 都 是 不 定 长 序列 时 ， 我 们 可 以 使 用 编码 器 -解码 器 (encoder-decoder) “或 
者 seq2seq 模型 中 。 这 两 个 模型 本 质 上 都 用 到 了 两 个 循环 神经 网 络 ， 分 别 叫 做 编码 器 和 解码 器 。 
编码 器 用 来 分 析 输 入 序列 ， 解 码 器 用 来 生成 输出 序列 。 


图 10-8 描述 了 使 用 编码 器 - 解码 器 将 上 述 英 语句 子 翻译 成 法 语句 子 的 一 种 方法 。 在 训练 
数据 集中 ， 我 们 可 以 在 每 个 句子 后 附 上 特殊 符号 “<eos>”(end of sequence) 以 表示 序列 的 终止 。 
编码 器 每 个 时 间 步 的 输入 依次 为 英语 句子 中 的 单词 、 标 点 和 特殊 符号 “<eos>”。 图 10-8 中 使 
用 了 编码 器 在 最 终 时 间 步 的 隐藏 状态 作为 输入 句子 的 表征 或 编码 信息 。 解 码 器 在 各 个 时 间 步 中 
使 用 输入 句子 的 编码 信息 和 上 个 时 间 步 的 输出 以 及 隐藏 状态 作为 输入 。 我 们 和 硕 望 解码 器 在 各 个 
时 间 步 能 正确 依次 输出 翻译 后 的 法 语 单 词 、 标 点 和 特殊 符号 “<eos>”。 需 要 注意 的 是 ， 解 码 器 
在 最 初时 间 步 的 输入 用 到 了 一 个 表示 序列 开始 的 特殊 符号 “<bos>”(beginning of sequence). 
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编码 器 解码 器 


Ils regardent : <eos> 





They are watching <eos> I 
<bos> 


图 10-8 ”使 用 编码 器 - 解码 器 将 句子 由 英语 翻译 成 法 语 。 编 码 器 和 解码 器 分 别 为 循环 神经 网 络 
接 下 来 ， 我 们 分 别 介绍 编码 器 和 解码 器 的 定义 。 


10.9.1 编码 器 

编码 器 的 作用 是 把 一 个 不 定 长 的 输入 序列 变换 成 一 个 定 长 的 背景 变量 c， 并 在 该 背景 变量 
中 编码 输入 序列 信息 。 编 码 器 可 以 使 用 循环 神经 网 络 。 

让 我 们 考虑 批量 大 小 为 1 的 时 序数 据 样 本 。 假 设 输 入 序列 是 Xr, BIO x, 是 输入 句 
子 中 的 第 i 个 词 。 在 时 间 步 t， 循 环 神经 网 络 将 输入 x, 的 特征 癌 量 x, 和 上 个 时 间 步 的 隐藏 状态 
h 变换 为 当前 时 间 步 的 隐藏 状态 h,。 我 们 可 以 用 函数 了 表达 循环 神经 网 络 隐 藏 层 的 变换 : 

h, = EL h,_;) 
接 下 来 ， 编 码 器 通过 自 定 义 函 数 q 将 各 个 时 间 步 的 隐藏 状态 变换 为 背景 变量 
e= qh. hr) 
例如 ， 当 选择 qh., Apzr) = pr 时， 背景 变量 是 输入 序列 最 终 时 间 步 的 隐藏 状态 hy。 

以 上 描述 的 编码 器 是 一 个 单身 的 循环 神经 网 络 ， 每 个 时 间 步 的 隐藏 状态 只 取决 于 该 时 间 步 

及 之 前 的 输入 子 序列 。 我 们 也 可 以 使 用 双 辣 循环 神经 网 络 构 造 编 码 器 。 在 这 种 情况 下 ， 编 码 嚣 


每 个 时 间 步 的 隐藏 状态 同时 取决 于 该 时 间 步 之 前 和 之 后 的 子 序列 (包括 当前 时 间 步 的 输入 )， 
并 编码 了 整个 序列 的 信息 。 


10.9.2 解码 器 


刚刚 己 经 介绍 ， 编 码 器 输出 的 背景 变量 c 编码 了 整个 输入 序列 zx, …, xz 的 信息 。 给 定 
训练 样本 中 的 输出 序列 Vp. y,，…, yr'， 对 每 个 时 间 步 +* (符号 与 输入 序列 或 编码 器 的 时 间 步 
t 有 区 别 )， 解 码 器 输出 yy 的 条 件 概率 将 基于 之 前 的 输出 序列 yo yra 和 背景 变量 c， 即 
人 OO 


为 此 ， 我 们 可 以 使 用 羽 一 个 循环 神经 网 络 作 为 解码 右 。 在 输出 序列 的 时 间 步 二， 解码 器 将 
上 一 时 间 步 的 输出 yw-l 以 及 背景 变量 e 作为 输入 ， 并 将 它们 与 上 一 时 间 步 的 隐藏 状态 Sr- 变换 
为 当前 时 间 步 的 隐藏 状态 s+。 因 此 ， 我 们 可 以 用 函数 g 表达 解码 器 隐藏 层 的 变换 : 


Sy = 8 (rls C, Sp) 


10.10 来 搜索 + 355° 


有 了 解码 器 的 隐 纠 状态 后 ， 我 们 可 以 使 用 自 定 义 的 输出 层 和 softmax 运算 来 计算 
POY |e Yra 6)， 例 如 ， 基 于 当前 时 间 步 的 解码 器 隐藏 状态 s+、 上 一 时 间 步 的 输出 yi 以 
及 背景 变量 ec 来 计算 当前 时 间 步 输出 yi 的 概率 分 布 。 


10.9.3 ”训练 模型 
根据 最 大 似 然 估计 ， 我 们 可 以 最 大 化 输出 序列 基于 输入 序列 的 条 件 概率 


Ps) Yr [Ms Xp) = [Tro S E Mes Xp) 


Yi 
= | | PG ae) 
=] 


并 得 到 该 输出 序列 的 损失 


-log POr °°") Yr Att Xr) = -Ds log Plyr | ¥1,***s Yr-1, ©) 
| 


在 模型 训练 中 ， 所 有 输出 序列 损失 的 均值 通常 作为 需要 最 小 化 的 损失 函数 。 在 图 10-8 所 
描述 的 模型 预测 中 ， 我 们 需要 将 解码 器 在 上 一 个 时 间 步 的 输出 作为 当前 时 间 步 的 输入 。 与 此 不 
同 ， 在 训练 中 我 们 也 可 以 将 标签 序列 〈 训 练 集 的 真实 输出 序列 ) 在 上 一 个 时 间 步 的 标签 作为 解 
码 器 在 当前 时 间 步 的 输入 。 这 叫 作 强制 教学 〈teacher forcing). 


小 结 
© 编码 器 -解码 器 〈seq2seq) 可 以 输入 并 输出 不 定 长 的 序列 。 
© 编码 器 -解码 器 使 用 了 两 个 循环 神经 网 络 。 
© 在 编码 器 - 解码 器 的 训练 中 ， 可 以 采用 强制 教学 。 


练习 
(1) 除了 机 器 翻译 ， 你 还 能 想到 编码 器 - 解码 器 的 哪些 应 用 ? 
(2) 有 哪些 方法 可 以 设计 解码 器 的 输出 层 ? 





10.10 RER 扫 码 直达 讨论 区 


10.9 节 介绍 了 如 何 训 练 输入 和 输出 均 为 不 定 长 序列 的 编码 器 - 解码 器 。 
本 节 我 们 介绍 如 何 使 用 编码 器 - 解码 器 来 预测 不 定 长 的 序列 。 


10.9 节 里 已 经 提 到 ， 在 准备 训练 数据 集 时 ， 我 们 通常 会 在 样本 的 输入 
序列 和 输出 序列 后 面 分别 附 上 一 个 特殊 符号 “<eos>” 表 示 序 列 的 终止 。 我 
们 在 接 下 来 的 讨论 中 也 将 沿用 10.9 节 的 全 部 数学 符号 。 为 了 便于 讨论 ， 假 设 解码 器 的 输出 是 
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一 段 文本 序列 。 设 输出 文本 词典 》 (包含 特殊 符号 “<eos>”) 的 大 小 为 |y|， 输 出 序列 的 最 大 


长 度 为 7'。 所 有 可 能 的 输出 序列 一 共有 OYT ) 种 。 这 些 输出 序列 中 所 有 特殊 符号 “<eos>” 
后 面 的 子 序列 将 被 舍弃 。 


10.10.1 RERA 
ARTERE A fl AR RTT R BEAL (greedy search)。 对 于 输出 序列 任 一 时 间 
DG t, RAIA || Tied PSR RR BK I] 


ye = angmax PCy | Y1, ==, yet ©) 
yey 


作为 输出 。 一 旦 搜索 出 “<eos>” 符 号 ， 或 者 输出 序列 长 度 己 经 达到 了 最 大 长 度 7 ， 便 完 
成 输出 。 | 


我 们 在 描述 解码 器 时 提 到 ， 基 于 输入 序列 生成 输出 序列 的 条 件 概率 是 Mia PO |e 
yr-1, 5)。 我 们 将 该 条 件 概率 最 大 的 输出 序列 称 为 最 优 输出 序列 ， 而 贪 禁 搜 索 的 主要 问题 是 不 能 
保证 得 到 最 优 输出 序列 。 


下 面 来 看 一 个 例子 。 假 设 输出 词典 里 面 有 “A”“B”“C” 和 “<eos>” 这 4 个 词 。 图 10-9 
中 每 个 时 间 步 下 的 4 个 数字 分 别 代表 了 该 时 间 步 生成 “A”“B”“C” 和 “<eos>” 这 4 个 词 的 
条 件 概 率 。 在 每 个 时 间 步 ， 贪 楚 搜 索 选 取 条 件 概 率 最 大 的 词 。 因 此 ， 图 10-9 中 将 生成 输出 序 
列 “A”“B”“C”“<eos>”。 该 输出 序列 的 条 件 概 率 是 0.5 x 0.4x0.4x0.6= 0.048。 





图 10-9 在 每 个 时 间 步 ， 贪 蕉 搜索 选取 条 件 概率 最 大 的 词 


接 下 来 ， 观 察 图 10-10 演示 的 例子 。 与 图 10-9 中 不 同 ， 图 10-10 在 时 间 步 2 中 选取 了 条 
件 概 率 第 二 大 的 词 “C”。 由 于 时 间 步 3 所 基于 的 时 间 步 1 和 2 的 输出 子 序列 由 图 10-9 中 的 
“A”“B” 变 为 了 图 10-10 中 的 “A”“C”， 图 10-10 中 时 间 步 3 生成 各 个 词 的 条 件 概率 发 生 了 
变化 。 我 们 选取 条 件 概 率 最 大 的 词 “B”。 此 时 时 间 步 4 所 基于 的 前 3 个 时 间 步 的 输出 子 序列 
为 “A”“C”“B”， 与 图 10-9 中 的 “A”“B”“C” 不 同 。 因 此 ， 图 10-10 中 时 间 步 4 生成 各 个 
词 的 条 件 概率 也 与 图 10-9 中 的 不 同 。 我 们 发 现 ， 此 时 的 输出 序列 “A”“C”“B”“<eos>” 的 
条 件 概率 是 0.5 x 0.3 x 0.6 x 0.6 = 0.054， 大 于 贪 栖 搜索 得 到 的 输出 序列 的 条 件 概率 。 因 此 ， 食 
禁 搜 索 得 到 的 输出 序列 “A”“B”“C”“<eos>” 并 非 最 优 输 出 序列 。 


10.10 RAK © 357° 





图 10-10 在 时 间 步 2 选取 条 件 概率 第 二 大 的 词 “C” 


10.10.2 KERR 


如 果 目 标 是 得 到 最 优 输 出 序列 ， 我 们 可 以 考虑 穷 举 搜索 (exhaustive search): 穷 举 所 有 可 
能 的 输出 序列 ， 输 出 条 件 概 率 最 大 的 序列 。 


虽然 穷 举 搜索 可 以 得 到 最 优 输 出 序列 ， 但 它 的 计算 开销 OY!) 很 容易 过 大 。 例 如 ， 当 
|Y|=10000 H. 7’=10 时， 我 们 将 评估 10000" = 10 "个 序列 : 这 几乎 不 可 能 完成 。 而 贪 焚 搜索 的 
计算 开销 是 O(271T7)， 通 常 显著 小 于 穷 举 搜索 的 计算 开销 。 例 如 ， 当 |2|=10000 且 T'=10 时 ， 
我 们 只 需 评估 10000 x 10 = 10° 个 序列 。 


10.10.3 RRR 


RAZR (beam search) 是 对 贪 禁 搜索 的 一 个 改进 算法 。 它 有 一 个 束 宽 (beam size) HE 
数 。 我 们 将 它 设 为 k。 在 时 间 步 1 时 ， 选 取 当 前 时 间 步 条 件 概率 最 大 的 大 个 词 ， 分 别 组 成 磊 个 
候选 输出 序列 的 首 词 。 在 之 后 的 每 个 时 间 步 ， 基 于 上 个 时 间 步 的 上 个 候选 输出 序列 ， 从 大 2 个 
可 能 的 输出 序列 中 选取 条 件 概率 最 大 的 大 个 ， 作 为 该 时 间 步 的 候选 输出 序列 。 最 终 ， 我 们 从 各 
个 时 间 步 的 候选 输出 序列 中 筛选 出 包含 特殊 符号 “<eos>” 的 序列 ， 并 将 它们 中 所 有 特殊 符号 
“<eos>” 后 面 的 子 序列 舍弃 ， 得 到 最 终 候 选 输出 序列 的 集合 。 


10-11 通过 一 个 例子 演示 了 束 搜 索 的 过 程 。 假 设 输出 序列 的 词典 中 只 包含 5 个 元 
素 ， 即 7》={4, B,C,D,E}， 且 其 中 一 个 为 特殊 符号 “<eos>”。 设 束 搜索 的 束 宽 等 于 2， 输 
出 序列 最 大 长 度 为 3。 在 输出 序列 的 时 间 步 1 时 ， 假 设 条 件 概 率 P(y |c) 最 大 的 2 个 词 为 
4 和 C。 我 们 在 时 间 步 2 时 将 对 所 有 的 Yo © VY 都 分 别 计 算 P(4,y,1c)=P(4|e)P(y,|4,c) 
和 P(C, y, |c)=P(C|e)P(y, 1C,c)， 并 从 计算 出 的 10 个 条 件 概 率 中 取 最 大 的 2 个 ， 假 设 为 
P(A, B\c) #1 P(C, Elc)。 那 么 ， 我 们 在 时 间 步 3 时 将 对 所 有 的 为 sy 都 分 别 计算 PCA, B, y |e) 
= P(A, B|c)P(y; | A, B, c) 和 P(C, E, y; |c) = P(C, E|e)P(y3|C, E, c), 并 从 计算 出 的 10 个 条 件 
概率 中 取 最 大 的 2 个 ， 假 设 为 P(A, B,D\c) 和 P(C,E,D|c)。 如 此 一 来 ， 我 们 得 到 6 个 候选 
输出 序列 : (1) A; (2) C; (3) A, B; (4) C, E; (5) A, B, DA (6) C, E, Do. FX, 
我 们 将 根据 这 6 个 序列 得 出 最 终 候选 输出 序列 的 集合 。 
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时 间 步 ] 时 间 步 2 时 间 步 3 
候选 输出 序列 候选 输出 序列 候选 输出 序列 





图 10-11 束 搜索 的 过 程 。 束 宽 为 2， 输 出 序列 最 大 长 度 为 3。 候 选 输出 序列 有 4、C、AB、CE、ABD 和 CED 
在 最 终 候选 输出 序列 的 集合 中 ， 我 们 取 以 下 分 数 最 高 的 序列 作为 输出 序列 : 


L 
| i 
7a 108 POr YL) eet log Pp | V1 Ya ©) 


t'=1 
其 中 工 为 最 终 候选 序列 长 度 ，a AAT EY 0.75. DEEK EW SET BURIED Ea 
数 中 较 多 的 对 数 相 加 项 。 分 析 可 知 ， 束 搜索 的 计算 开销 为 O(k|y|7")。 这 介 于 贪 禁 搜索 和 穷 举 
搜索 的 计算 开销 之 间 。 此 外 ， 贪 焚 搜 索 可 看 作 是 束 宽 为 1 的 束 搜索 。 束 搜索 通过 灵活 的 束 宽 
来 权衡 计算 开销 和 搜索 质量 。 


小 结 
© 预测 不 定 长 序列 的 方法 包括 贪 禁 搜索 、 穷 举 搜 索 和 束 搜 索 。 
© 束 搜 索 通 过 灵活 的 束 宽 来 权衡 计算 开销 和 搜索 质量 。 


练习 
(1) 穷 举 搜索 可 否 看 作 特 殊 束 宽 的 束 搜索 ? AHA? 
(2) 在 6.4 节 中 ， 我 们 使 用 语言 模型 创作 歌词 。 它 的 输出 属于 哪 种 搜索 ? 你 能 改进 它 吗 ? 


扫 码 直达 讨论 区 





10.11 注意 力 机 制 


在 10.9 节 里 ， 解 码 器 在 各 个 时 间 步 依赖 相同 的 背景 变量 来 获取 输入 序 
列 信息 。 当 编码 器 为 循环 神经 网 络 时 ， 背 景 变量 来 自 它 最 终 时 间 步 的 隐藏 
状态 。 
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现在 ， 让 我 们 再 次 思考 10.9 节 提 到 的 翻译 例子 : 输入 为 英语 序列 “They”“are”“ watching” 
“”， 输出 为 法 语序 列 “Ils”“regardent”“.”。 不 难 想到 ， 解 码 器 在 生成 输出 序列 中 的 每 一 个 词 
时 可 能 只 需 利 用 输入 序列 某 一 部 分 的 信息 。 例 如 ， 在 输出 序列 的 时 间 步 1， 解 码 器 可 以 主要 依 
赖 “They”“are” 的 信息 来 生成 “Ils”， 在 时 间 步 2 则 主要 使 用 来 自 “watching” 的 编码 信息 生成 
“regardent”， 最 后 在 时 间 步 3 则 直接 映射 句号 “.”。 这 看 上 去 就 像 是 在 解码 器 的 每 一 时 间 步 对 输 
入 序列 中 不 同时 间 步 的 表征 或 编码 信息 分 配 不 同 的 注意 力 一 样 。 这 也 是 注意 力 机 制 的 由 来 …。 


仍然 以 循环 神经 网 络 为 例 ， 注 意 力 机 制 通过 对 编码 嚣 所 有 时 间 步 的 隐藏 状态 做 加 权 平 均 来 
得 到 背景 变量 。 解 码 器 在 每 一 时 间 步 调整 这 些 权重 ， 即 注意 力 权重 ， 从 而 能 够 在 不 同时 间 步 分 
别 关 注 输 入 序列 中 的 不 同 部 分 并 编码 进 相应 时 间 步 的 育 景 变量 。 本 节 我 们 将 讨论 注意 力 机 制 是 
怎么 工作 的 。 


在 10.9 节 里 我 们 区 分 了 输入 序列 或 编码 器 的 索引 上 与 输出 序列 或 解码 器 的 索引 to 该 节 中 ， 解 
码 器 在 时 间 步 7 的 隐藏 状态 Sr = 8r- 6 Sy), FLAP yw_1 是 上 一 时 间 步 1'-1 的 输出 yr- 的 表征 ， 
且 任 一 时 间 步 使 用 相同 的 背景 变量 c。 但 在 注意 力 机 制 中 ， 解 码 器 的 每 一 时 间 步 将 使 用 可 变 的 背 
景 变量 。 记 c 是 解码 器 在 时 间 步 + 的 背景 变量 ， 那 么 解码 器 在 该 时 间 步 的 隐藏 状态 可 以 改写 为 


Sp = g(r1s Crs Sy) 


这 里 的 关键 是 如 何 计算 背景 变量 cc 和 如 何 利用 它 来 更 新 隐藏 状态 s,.。 下 面 将 分 别 描述 这 两 个 


10.11.1 计算 背景 变量 


我 们 先 描述 第 一 个 关键 点 ， 即 计算 背景 变量 。 图 10-12 描绘 了 注意 力 机 制 如 何 为 解码 器 在 
时 间 步 2 计算 背景 变量 。 首 先 ， 函 数 a 根据 解码 器 在 时 间 步 1 的 隐藏 状态 和 编码 器 在 各 个 时 间 
步 的 隐藏 状态 计算 softmax 运算 的 输入 。softmax 运算 输出 概率 分 布 并 对 编码 器 各 个 时 间 步 的 
隐藏 状态 做 加 权 平 均 ， 从 而 得 到 背景 变量 。 





编码 器 解码 器 
10-12 ”编码 器 - 解码 器 上 的 注意 力 机 制 


具体 来 说 ， 令 编码 器 在 时 间 步 上 的 隐藏 状态 为 六 ， 且 总 时 间 步 数 为 7。 那么 解码 器 在 时 间 
步 才 的 背景 变量 为 所 有 编码 器 隐藏 状态 的 加 权 平 均 : 
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T 
Cy = ) ay,h, 
t=] 
HEPA t, ME a 在 1=1,…,7 的 值 是 一 个 概率 分 布 。 为 了 得 到 概率 分 布 ， 我 们 可 以 使 用 
softmax 运算 : 


Be. taberi 


Zi | 
kel exp(é,, ) 


现在 ， 我 们 需要 定义 如 何 计算 上 式 中 softmax 运算 的 输入 ero HAF en 同时 取决 于 解码 器 
的 时 间 步 志和 编码 器 的 时 间 步 t， 我 们 不 妨 以 解码 器 在 时 间 步 + -1 的 隐藏 状态 sv 与 编码 器 在 
时 间 步 t 的 隐藏 状态 h, 为 输入 ， 并 通过 函数 a 计算 ev : 

en = a(Sy_), h) 
这 里 函数 a 有 多 种 选择 ， 如 果 两 个 输入 向 量 长 度 相同 ， 一 个 简单 的 选择 是 计算 它们 的 内 积 
a(s, hh) =s Hi。 而 最 早 提出 注意 力 机 制 的 论文 则 将 输入 连结 后 通过 含 单 隐藏 层 的 多 层 感知 机 变换 ”: 
a(s, h) =v ' tanh(W,s + Wh) 
其 中 w Wo W, 都 是 可 以 学 习 的 模型 参数 。 


矢量 化 计算 


我 们 还 可 以 对 注意 力 机 制 采 用 更 高 效 的 天 量化 计算 。 广 义 上 ， 注 意 力 机 制 的 输入 包括 查询 
项 以 及 一 一 对 应 的 键 项 和 值 项 ， 其 中 值 项 是 需要 加 权 平 均 的 一 组 项 。 在 加 权 平 均 中 ， 值 项 的 权 
重 来 自 查 询 项 以 及 与 该 值 项 对 应 的 键 项 的 计算 。 


在 上 面 的 例子 中 ， 查 询 项 为 解码 器 的 隐藏 状态 ， 键 项 和 值 项 均 为 编码 器 的 隐藏 状态 。 让 我 
们 考虑 一 个 常见 的 简单 情形 ， 即 编码 器 和 解码 器 的 隐藏 单元 个 数 均 为 h， 且 函数 a(s, h)=s' h. 假 
设 我 们 希望 根据 解码 器 单个 隐藏 状态 Sr eR" 和 编码 器 所 有 隐藏 状态 he R*,t =1,…,7 Kit 
算 背 景 向 量 c e R*。 我 们 可 以 将 查询 项 矩阵 OER” HN sl, IFO RTE K eR” 和 值 
项 矩阵 yeR™ 相同 且 第 1 行 均 为 h"。 此 时 ， 我 们 只 需要 通过 矢量 化 计算 
softmax(QK ' )V 

即 可 算出 转 置 后 的 背景 向 量 cy 。 当 查询 项 矩阵 O 的 行 数 为 n 时 ， 上 式 将 得 到 行 的 输出 矩阵 。 
输出 矩阵 与 查询 项 矩阵 在 相同 行 上 一 一 对 应 。 


10.11.2 ”更 新 隐藏 状态 


现在 我 们 描述 第 二 个 关键 点 ， 即 更 新 隐藏 状态 。 以 门 控 循环 单元 为 例 ， 在 解码 器 中 我 们 可 
以 对 6.7 节 中 门 控 循 环 单元 的 设计 稍 作 修 改 ， 从 而 变换 上 一 时 间 步 1'-1 的 输出 下 隐藏 状态 
Sy 和 当前 时 间 步 疙 的 含 注意 力 机 制 的 背景 变量 ec 。 解 码 器 在 时 间 步 才 的 隐藏 状态 为 

Sy = Zp Os + OS, 


其 中 的 重 置 门 、 更 新 门 和 候选 隐藏 状态 分 别 为 
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yim oW yr + WS] + W Cy +b,) 
Zr = oW yr T Woz St- 7 Wc +b,) 
Sy a tanh(W s Yr- + W i (Sy_] Or) Li W cr +b) 


其 中 含 下 标的 WA b DAA TREA E CHA BS A i FE 


10.11.3 &R 


本 质 上 ， 注 意 力 机 制 能 够 为 表征 中 较 有 价值 的 部 分 分 配 较 多 的 计算 资源 。 这 个 有 趣 的 想法 
自 提出 后 得 到 了 快速 发 展 ， 特 别 是 启发 了 依靠 注意 力 机 制 来 编码 输入 序列 并 解码 出 输出 序列 
的 变换 器 (Transformer) 模型 的 设计 中。 变换 器 抛弃 了 卷 积 神经 网 络 和 循环 神经 网 络 的 架构 。 
它 在 计算 效率 上 比 基 于 循环 神经 网 络 的 编码 器 - 解码 器 模型 通 币 更 具 明 显 优势 。 含 注意 力 机 制 
的 变换 器 的 编码 结构 在 后 来 的 BERT 预 训 练 模型 中 得 以 应 用 并 令 后 者 大 放 异 彩 : 微调 后 的 模型 
在 多 达 11 项 自然 语言 处 理 任务 中 取得 了 当时 最 先进 的 结果 ""。 不 久 后 ， 同 样 是 基于 变换 器 设 
计 的 GPT-2 模型 于 新 收集 的 语 料 数 据 集 预 训练 后 ， 在 7 个 未 参与 训练 的 语言 模型 数据 集 上 均 取 
得 了 当时 最 先进 的 结果 “|。 除 了 自然 语言 处 理 领域 ， 注 意 力 机 制 还 被 广泛 用 于 图 像 分 类 、 自 
动 图 像 描述 、 层 语 解 读 以 及 语 首 识别 。 


小 结 
© 可 以 在 解码 器 的 每 个 时 间 步 使 用 不 同 的 背景 变量 ， 并 对 输入 序列 中 不 同时 间 步 编码 的 信息 分 
配 不 同 的 注意 力 。 
广义 上 ， 注 意 力 机 制 的 输入 包括 查询 项 以 及 一 一 对 应 的 键 项 和 值 项 。 
注意 力 机 制 可 以 采用 更 为 高 效 的 矢量 化 计算 。 


(1) 基于 本 节 的 模型 设计 ， 为 什么 不 可 以 将 解码 器 在 不 同时 间 步 的 隐藏 状态 
si €R™ tel o, T 连结 成 查询 项 矩阵 Qe 民 '， 从 而 同时 计算 不 同时 间 步 的 含 注 意 力 机 制 的 背 
景 变量 e,t el, T? 


(2) 不 修改 6.7 节 中 的 gru 函数 ， 应 如 何 用 它 实现 本 节 介 绍 的 解码 器 ? 








10.12 机 器 翻译 
机 器 翻译 是 指 将 一 段 文本 从 一 种 语言 自动 翻译 到 另 一 种 语言 . 因为 四] [m] 


段 文本 序列 在 不 同 语言 中 的 长 度 不 一 定 相同 ， 所 以 我 们 使 用 机 器 翻译 为 例 “ 旺 
来 介绍 编码 器 - 解码 器 和 注意 力 机 制 的 应 用 。 = 

i 
10.12.1 读 取 和 预 处 理 数 据 集 


我 们 先 定义 一 些 特殊 符号 。 其 中 “<pad>”(padding) 符号 用 来 添加 在 较 短 序列 后 ， 直 到 
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每 个 序列 等 长 ， 而 “<bos>” 和 “<eos>” 符 号 分 别 表示 序列 的 开始 和 结束 。 


In [1]: import collections 
import io 
import math 
from mxnet import autograd, gluon, init, nd 
from mxnet.contrib import text 
from mxnet.gluon import data as gdata, loss as gloss, nn, rnn 


PAD, BOS, EOS = '<pad>', '<bos>', '<eos>' 
接着 定义 两 个 辅助 函数 对 后 面 读 取 的 数据 进行 预 处 理 。 


In [2]: # 将 一 个 序列 中 所 有 的 词 记 录 在 aLL_tokens 中 以 便 之 后 构造 司 典 ， 然后 在 该 序列 后 面 添 加 PAD 直 到 序列 
# 长 度 变 为 nax_seq_Len， 然 后 将 序列 保存 在 aLL_seqs 中 
def process_one_seq(seq_tokens, all_tokens, all_seqs, max_seq_len): 
all_tokens.extend(seq_tokens) 
seq_tokens += [EOS] + [PAD] * (max_seq_len - lLen(seq_tokens) - 1) 
all_seqs.append(seq_tokens) 


# 使 用 所 有 的 词 来 构造 词典 。 并 将 所 有 序列 中 的 词 变换 为 词 索 引 后 构造 NDArray 实 例 
def build_data(all_tokens, all_seqs): 
vocab = text.vocab.Vocabulary(collections.Counter (all_tokens) , 
reserved_tokens=[PAD, BOS, EOS]) 
indices = [vocab.to_indices(seq) for seq in all_seqs] 
return vocab, nd.array(indices) 


为 了 演示 方便 ， 我 们 在 这 里 使 用 一 个 很 小 的 法 语 - 英语 数据 集 。 在 这 个 数据 集 里 ， 每 一 行 
是 一 对 法 语句 子 和 它 对 应 的 英语 句子 ， 中 间 使 用 "Nt' 隔 开 。 在 读 取 数 据 时 ， 我 们 在 句 末 附 上 
“<eos>” 符 号 ， 并 可 能 通过 添加 “<pad>” 符 号 使 每 个 序列 的 长 度 均 为 max_seq_Len。 我 们 为 
法 语词 和 英语 词 分 别 创建 词典 。 法 语词 的 索引 和 英语 词 的 索引 相互 独立 。 


In [3]: def read_data(max_seq_Len) : 

# 1Tn 和 out 分 别 是 input 和 output 的 缩写 

in_tokens, out_tokens, in_seqs, out_seqs = [], [], [], [O] 

with jio.open('../data/fr-en-small.txt') as f: 
lines = f.readlines() 

for line in lines: 
in_seq, out_seq = line.rstrip().split('\t') 
in_seq_tokens, out_seq_tokens = in_seq.split(' '), out_seq.split(' ') 
if max(len(in_seq_tokens), len(out_seq_tokens)) > max_seq_len - 1: 

continue # 如 果 加 上 E0S 后 长 于 max_seq_len， 则 忽略 掉 此 样本 

process_one_seq(in_seq_tokens, in_tokens, in_seqs, max_seq_len) 
process_one_seq(out_seq_tokens, out_tokens, out_seqs, max_seq_len) 

in_vocab, in_data = build_data(in_tokens, in_seqs) 

out_vocab, out_data = build_data(out_tokens, out_seqs) 

return in_vocab, out_vocab, gdata.ArrayDataset(in_data, out_data) 


将 序列 的 最 大 长 度 设 成 7， 然 后 查看 读 取 到 的 第 一 个 样本 。 该 样本 分 别 包含 法 语词 索引 序 
列 和 英语 词 索 引 序 列 。 


In [4]: 


Out[4]: 
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max_seq_len = 7 
in_vocab, out_vocab, dataset = read_data(max_seq_len) 
dataset[0] 


Be: 4S. a aoe sie Let 
<NDArray 7 @cpu(0)>, 
PER Tu EF eT 2s pled 
<NDArray 7 @cpu(0)>) 


10.12.2 SEEDER- 


BAN VAP AS TIE SIL til) 9 GS a - 解码 器 来 将 一 段 简 短 的 法 语 翻译 成 英语 。 下 面 我 们 来 
介绍 模型 的 实现 。 


1. 编码 器 

在 编码 器 中 ， 我 们 将 输入 语言 的 词 索 引 通 过 词 骨 入 层 得 到 词 的 表征 ， 然 后 输入 到 一 个 多 层 
门 控 循 环 单元 中 。 正 如 我 们 在 6.5 节 提 到 的 ，Gluon 的 rnn.GRU 实例 在 前 向 计算 后 也 会 分 别 返 
回 和 输出 和 最 终 时 间 步 的 多 层 隐 藏 状态 。 其 中 的 输出 指 的 是 最 后 一 层 的 隐藏 层 在 各 个 时 间 步 的 隐 
藏 状态 ， 并 不 涉及 输出 层 计算 。 注 意 力 机 制 将 这 些 输出 作为 键 项 和 值 项 。 


In [5]: class Encoder(nn.Block): 


def _init__(self, vocab_size, embed_size, num_hiddens, num_lLayers, 
drop_prob=0, **xkwargs): 
super (Encoder, self).__init__(**kwargs) 
self.embedding = nn.Embedding(vocab_size, embed_size) 
self.rnn = rnn.GRU(num_hiddens, num_Layers, dropout=drop_prob) 


def forward(self, inputs, state): 
# 输入 形状 是 (批量 大 小 ， 时 间 步 数 ) 。 将 输出 互 换 样 本 维和 时 间 步 维 
embedding = self.embedding(inputs).swapaxes(0, 1) 
return self.rnn(embedding, state) 


def begin_state(self, xargs, *xkwargs): 
return self.rnn.begin_state(*args, **kwargs) 


下 面 我 们 来 创建 一 个 批量 大 小 为 4、 时 间 步 数 为 7 的 小 批量 序列 输入 。 设 门 控 循环 单元 的 
隐藏 层 个 数 为 2， 隐藏 单元 个 数 为 6。 编码 器 对 该 输入 执行 前 同 计 算 后 返回 的 输出 形状 为 (时 
间 步 数 , 批量 大 小 , 隐藏 单元 个 数 )。 门 控 循 环 单 元 在 最 终 时 间 步 的 多 层 隐 藏 状态 的 形状 为 ( 隐 
藏 层 个 数 , 批量 大 小 , 隐藏 单元 个 数 )。 对 于 门 控 循环 单元 来 说 ，state 列表 中 只 含 一 个 元 素 ， 


即 隐藏 状态 ; 


In [6]: 


Out [6]: 


如 果 使 用 长 短期 记忆 ，state 列表 中 还 将 包含 另 一 个 元 素 ， 即 记忆 细胞 。 


encoder = Encoder(vocab_size=10，embed_size=8，num_hiddens=16，num_Layers=2) 
encoder.initialize() 

output, state = encoder(nd.zeros((4, 7)), encoder.begin_state(batch_size=4) ) 
output.shape, state[0].shape 


((7, 4, 16), (2, 4, 16)) 
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2. 注意 力 机 制 


在 介绍 如 何 实现 注意 力 机 制 的 天 量化 计算 之 前 ， 我 们 先 了 解 一 下 Dense 实例 的 Flatten 
选项 。 当 输入 的 维度 大 于 2 时 ， 默 认 情 况 下 ，Dense 实例 会 将 除了 第 一 维 〈 样 本 维 ) 以 外 的 维 
度 均 视 作 需要 仿 射 变换 的 特征 维 ， 并 将 输入 目 动 转 成 行为 样本 、 列 为 特征 的 二 维 窍 阵 。 计 算 
后 ， 输 出 矩阵 的 形状 为 (样本 数 , 输出 个 数 )。 如 果 我 们 硕 望 全 连接 层 只 对 输入 的 最 后 一 维 做 仿 
射 变换 ， 而 保持 其 他 维度 上 的 形状 不 变 ， 便 需要 将 Dense 实例 的 Flatten 选项 设 为 False。 
在 下 面 例子 中 ， 全 连接 层 只 对 输入 的 最 后 一 维 做 仿 射 变换 ， 因 此 输出 形状 中 只 有 最 后 一 维 变 为 
全 连接 层 的 输出 个 数 2。 

In [7]: dense = nn.Dense(2, flatten=False) 


dense. initialize() 
dense(nd.zeros((3, 5, 7))).shape 


Out[7]: (3, 5, 2) 


我 们 将 实现 10.11 节 中 定义 的 函数 ae : 将 输入 连结 后 通过 含 单 隐藏 层 的 多 层 感知 机 变换 。 
其 中 隐藏 层 的 输入 是 解码 器 的 隐藏 状态 与 编码 器 在 所 有 时 间 步 上 隐藏 状态 的 一 一 连结 ， 且 使 
FA tanh 函数 作为 激活 函数 。 输 出 层 的 输出 个 数 为 1。 两 个 Dense 实例 均 不 使 用 偏差 ， 且 设 
flatten=False。 其 中 函数 a 定义 里 癌 量 v 的 长 度 是 一 个 超 参 数 ， 即 attention_size. 


In [8]: def attention_model(attention_size): 
model = nn.Sequential() 
model.add(nn.Dense(attention_size, activation='tanh', use_bias=False, 
flatten=False) , 
nn.Dense(1, use_bias=False, flatten=False) ) 
return model , 


注意 力 机 制 的 输入 包括 查询 项 、 键 项 和 值 项 。 设 编码 器 和 解码 器 的 隐藏 单元 个 数 相同 。 这 
里 的 查询 项 为 解码 器 在 上 一 时 间 步 的 隐藏 状态 ， 形 状 为 (批量 大 小 , 隐藏 单元 个 数 ) ; 键 项 和 
值 项 均 为 编码 器 在 所 有 时 间 步 的 隐藏 状态 ， 形 状 为 (时 间 步 数 , 批量 大 小 , 隐藏 单元 个 数 )。 注 
意 力 机 制 返 回 当前 时 间 步 的 背景 变量 ， 形 状 为 (批量 大 小 , 隐藏 单元 个 数 )。 
In [9]: def attention_forward(model, enc_states, dec_state): 
# 将 解码 器 隐藏 状态 广播 到 和 编码 器 隐藏 状态 形状 相同 后 进行 连结 
dec_states = nd.broadcast_axis( 
dec_state.expand_dims(0), axis=0, size=enc_states.shape[0] ) 
enc_and_dec_states = nd.concat(enc_states, dec_states, dim=2) 
e = model(enc_and_dec_states) # 形状 为 (时 间 步 数 ， 批 量 大 小 ，1) 
alpha = nd.softmax(e, axis=0) # 在 时 间 步 维度 做 softmax 运 算 
return (alpha * enc_states).sum(axis=0) # 返回 背景 变量 


在 下 面 的 例子 中 ， 编 码 器 的 时 间 步 数 为 10， 批 量 大 小 为 4， 编码 器 和 解码 器 的 隐藏 单 元 个 


数 均 为 8。 注意 力 机 制 返 回 一 个 小 批量 的 背景 向 量 ， 每 个 背景 向 量 的 长 度 等 于 编码 器 的 隐藏 单 
元 个 数 。 因 此 输出 的 形状 为 (4, 8)。 


In [10]: 


Out[10]: 
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seq_len, batch_size, num_hiddens = 10, 4, 8 

model = attention_model(10) 

model.initialize() 

enc_states = nd.zeros((seq_len, batch_size, num_hiddens) ) 
dec_state = nd.zeros((batch_size, num_hiddens) ) 
attention_forward(model, enc_states, dec_state).shape 


(4, 8) 


3. 含 注意 力 机 制 的 解码 器 


我 们 直接 将 编码 器 在 最 终 时 间 步 的 隐藏 状态 作为 解码 器 的 初始 隐藏 状态 。 这 要 求 编码 器 和 
解码 如 的 循环 神经 网 络 使 用 相同 的 隐藏 层 个 数 和 隐藏 单元 个 数 。 


在 解码 器 的 前 癌 计 算 中 ， 我 们 先 通 过 刚刚 介绍 的 注意 力 机 制 计 算得 到 当前 时 间 步 的 背景 向 
量 。 由 于 解码 器 的 输入 来 目 输 出 语言 的 词 索 引 ， 我 们 将 输入 通过 词 髓 入 层 得 到 表征 ， 然 后 和 背 
景 问 量 在 特征 维 连 结 。 我 们 将 连结 后 的 结果 与 上 一 时 间 步 的 隐藏 状态 通过 门 控 循 环 单元 计算 出 
当前 时 间 步 的 输出 与 隐藏 状态 。 最 后 ， 我 们 将 输出 通过 全 连接 层 变换 为 有 关 各 个 输出 词 的 预 
测 ， 形 状 为 (批量 大 小 , 输出 词典 大 小 )。 


In [11]: class Decoder(nn.Block):. 


def 


def 


def 


__init__(self, vocab_size, embed_size, num_hiddens, num_layers, 
attention_size, drop_prob=0, **xkwargs): 

super (Decoder, self).__init__(**kwargs) 

self.embedding = nn.Embedding(vocab_size, embed_size) 

self.attention = attention_model(attention_size) 

self.rnn = rnn.GRU(num_hiddens, num_layers, dropout=drop_prob) 

self.out = nn.Dense(vocab_size, flatten=False) 


forward(self, cur_input, state, enc_states): 

# 使 用 注意 力 机 制 计 算 背 景 向 量 

c = attention_forward(self.attention, enc_states, state[0][-1]) 
# ERASE ASA FS eS EES 

input_and_c = nd.concat(self.embedding(cur_input), c, dim=1) 

# 为 输入 和 背景 向 量 的 连结 增加 时 间 步 维 ， 时 间 步 个 数 为 1 

output, state = self.rnn(input_and_c.expand_dims(0), state) 

# 移 除 时 间 步 维 ， 输 出 形状 为 (批量 大 小 ， 输 出 词典 大 小 ) 

output = self.out(output) .squeeze(axis=0) 

return output, state 


begin_state(self, enc_state): 
# 直接 将 编码 器 最 终 时 间 步 的 隐藏 状态 作为 解码 器 的 初始 隐藏 状态 


return enc_state 


10.12.3 ”训练 模型 


我 们 先 实现 batch_loss 函数 计算 一 个 小 批量 的 损失 。 解 码 器 在 最 初时 间 步 的 输入 是 特殊 
字符 B0S。 之 后 ， 解 码 器 在 某 时 间 步 的 输入 为 样本 输出 序列 在 上 一 时 间 步 的 词 ， 即 强制 教学 。 此 
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外 ， 同 10.3 节 中 的 实现 一 样 ， 我 们 在 这 里 也 使 用 掩 码 变量 避免 填充 项 对 损失 函数 计算 的 影响 。 


In [12]: def batch_loss(encoder, decoder, X, Y, loss): 
batch_size = X.shape[0] 
enc_state = encoder.begin_state(batch_size=batch_size) 
enc_outputs, enc_state = encoder(X, enc_state) 
# 初始 化 解码 器 的 隐藏 状态 
dec_state = decoder.begin_state(enc_state) 
# 解码 器 在 最 初时 间 步 的 输入 是 BOS 
dec_input = nd.array([out_vocab.token_to_idx[BOS]] * batch_size) 
# 我 们 将 使 用 掩 码 变量 mask 来 忽略 掉 标签 为 填充 项 PAD 的 损失 
mask, num_not_pad_tokens = nd.ones(shape=(batch_size,)), 0 
l = nd.array([0]) 
for y in Y.T: 
dec_output, dec_state = decoder(dec_input, dec_state, enc_outputs) 
l = l + (mask * loss(dec_output, y)).sum() 
dec_input = y # 使 用 强制 教学 
num_not_pad_tokens += mask.sum().asscalar() 
# 当 遇 到 EOS 时 ， 序 列 后 面 的 词 将 均 为 PAD ， 相 应 位 置 的 掩 码 设 成 9 
mask = mask * (y != out_vocab .token_to_idx[EOS]) 
return L / num_not_pad_tokens 


在 训练 函数 中 ， 我 们 需要 同时 迭代 编码 器 和 解码 器 的 模型 参数 。 


In [13]: def train(encoder, decoder, dataset, lr, batch_size, num_epochs): 
encoder.initialize(init.Xavier(), force_reinit=True) 
decoder. initialize(init.Xavier(), force_reinit=True) 
enc_trainer = gluon.Trainer(encoder.collect_params(), '‘adam', 
{'learning_rate': lr}) 
dec_trainer = gluon.Trainer(decoder.collect_params(), 'adam', 
{'learning_rate': lr}) 
loss = gloss.SoftmaxCrossEntropyLoss() 
data_iter = gdata.DataLoader(dataset, batch_size, shuffle=True) 
for epoch in range(num_epochs): 
l_sum = 0.0 
for X, Y in data_iter: 
with autograd.record(): 
l = batch_loss(encoder, decoder, X, Y, loss) 
L. backward () 
enc_trainer.step(1) 
dec_trainer.step(1) 
l_sum += l.asscalar() 
if (epoch + 1) % 10 == 
print("epoch %d, loss %.3f" % (epoch + 1, l_sum / len(data_iter))) 


接 下 来 ， 创 建 模型 实例 并 设置 超 参数 。 然 后 ， 我 们 就 可 以 训练 模型 了 。 


In [14]: embed_size, num_hiddens, num_layers = 64, 64, 2 
attention_size, drop_prob, lr, batch_size, num_epochs = 10, 0.5, 0.01, 2, 50 
encoder = Encoder(len(in_vocab), embed_size, num_hiddens, num_layers, 
drop_prob) 
decoder = Decoder(len(out_vocab), embed_size, num_hiddens, num_lLayers, 


10.12 ”机 器 翻译 + 367° 


attention_size, drop_prob) 
train(encoder, decoder, dataset, lr, batch_size, num_epochs) 


epoch 10, loss 0.603 
epoch 20, loss 0.260 
epoch 30, loss 0.218 
epoch 40, loss 0.172 
epoch 50, loss 0.071 


10.12.4 ”预测 不 定 长 的 序列 


在 10.10 节 中 我 们 介绍 了 3 种 方法 来 生成 解码 器 在 每 个 时 间 步 的 输出 。 这 里 我 们 实现 最 简 
ARERR. 


In [15]: def translate(encoder, decoder, input_seq, max_seq_len): 
in_tokens = input_seq.split(' ') 
in_tokens += [EOS] + [PAD] * (max_seq_len - len(in_tokens) - 1) 
enc_input = nd.array([in_vocab.to_indices(in_tokens)]) 
enc_state = encoder.begin_state(batch_size=1) 
enc_output, enc_state = encoder(enc_input, enc_state) 
dec_input = nd.array([out_vocab.token_to_idx[BOS]]) 
dec_state = decoder. begin_state(enc_state) 
output_tokens = [] 
for _ in range(max_seq_len): 
dec_output, dec_state = decoder(dec_input, dec_state, enc_output) 
pred = dec_output.argmax(axis=1) 
pred_token = out_vocab.idx_to_token[int(pred.asscalar()) ] 
if pred_token == EOS: # 当 任 一 时 间 步 搜索 出 E0S 时 ， 输 出 序列 即 完成 
break 
else: 
output_tokens.append(pred_token) 
dec_input = pred 
return output_tokens 


简单 测试 一 下 模型 。 输 入 法 语句 子 “ils regardent.”， 翻 译 后 的 英语 句子 应 该 是 “they are 


watching. ”. 


In [16]: input_seq = 'ils regardent .' 
transLlate(encoder, decoder, input_seq, max_seq_len) 


Out[16]: [*they", ‘are’, "watening’*, *.") 


10.12.5 评价 翻译 结果 
评价 机 器 翻译 结果 通常 使 用 BLEU (Bilingual Evaluation Understudy) “ 1。 对 于 模型 预测 序 
列 中 任意 的 子 序列 ，BLEU 考察 这 个 子 序列 是 否 出 现在 标签 序列 中 。 


具体 来 说 ， 设 词 数 为 n 的 子 序列 的 精度 为 p,。 它 是 预测 序列 与 标签 序列 匹配 词 数 为 n 的 
子 序列 的 数量 与 预测 序列 中 词 数 为 n 的 子 序 列 的 数量 之 比 。 举 个 例子 ， 假 设 标签 序列 为 4、 
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B、C、D、E、F， 预 测序 列 为 4、B、B、C、D， 那 么 pi = 4/5, p, = 3/4，p; = 1/3，ps = 0。 设 
len avel 和 len sred 分 别 为 标签 序列 和 预测 序列 的 词 数 ， 那么 ， BLEU 的 定义 为 


len n 
in| 0,1- label We 
mi Tensa. Ji p 
其 中 大 是 我 们 希望 匹配 的 子 序列 的 最 大 词 数 。 可 以 看 到 当 预 测序 列 和 标签 序列 完全 一 致 时 ， 
BLEU 为 1。 


因为 匹配 较 长 子 序列 比 匹 配 较 短 子 序 列 更 难 ，BLEU 对 匹配 较 长 子 序列 的 精度 赋予 了 更 
ARH. Plt, 4p, 固定 在 0.5 时 ， 随 着 nn 的 增 大 ,0.5” = 0.7，0.$5” = 0.84，0.5 = 0.92, 
0.5" = 0.96。 另 外 ， 模 型 预测 较 短 序列 往往 会 得 到 较 高 p, 值 。 因 此 ， 上 式 中 连 乘 项 前 面 的 系 
数 是 为 了 惩罚 较 短 的 输出 而 设 的 。 举 个 例子 ， 当 k= 2 时 ， 假 设 标签 序列 为 4、B、C、D、 玉 、 


FF， 而 预测 序列 为 4、B。 虽 然 p, =p = 1， 但 惩罚 系数 exp(1 - 6/2) < 0.14， 因 此 BLEU 也 接 
近 0.14。 


下 面 来 实现 BLEU 的 计算 。 


In [17]: def bleu(pred_tokens, label_tokens, k): 
len_pred, len_label = Len(pred_tokens), len(lLabel_tokens) 
score = math.exp(min(@, 1 - Len_label / len_pred)) 
for n in range(1, k + 1): 
num_matches, Label_subs = 0, collections.defaultdict(int) 
for i in range(len_label - n + 1): 
label_subs[''.join(label_tokens[i: i + n])] += 1 
for i in range(len_pred - n + 1): 
if label_subs[''.join(pred_tokens[i: i + n])] > 0: 
num_matches += 1 
Label_subs[''.join(pred_tokens[i: i + n])] -= 1 
score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n)) 
return score 


接 下 来 ， 定 义 一 个 辅助 打印 函数 。 


In [18]: def score(input_seq, label_seq, k): 
pred_tokens = translate(encoder, decoder, input_seq, max_seq_len) 
label_tokens = label_seq.split(' ') 
print('bleu %.3f, predict: %s' % (bleu(pred_tokens, Label_tokens, k), 
' ',join(pred_tokens) ) ) 


预测 正确 则 分 数 为 1。 
In [19]: score('ils regardent .', 'they are watching .', k=2) 


bleu 1.000, predict: they are watching . 
测试 一 个 不 在 训练 集中 的 样本 。 


In [20]: score('ils sont canadiens .', 'they are canadian .', k=2) 


bleu 0.658, predict: they are actors . 
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小 结 
© 可 以 将 编码 器 - 解码 器 和 注意 力 机 制 应 用 于 机 器 翻译 中 。 
。 BLEU 可 以 用 来 评价 翻译 结果 。 


练习 


(1) 如 果 编 码 器 和 解码 器 的 隐藏 单元 个 数 不 同 或 隐藏 层 个 数 不 同 ， 该 如 何 改进 解码 器 的 隐藏 状 


态 的 初始 化 方法 ? 

(2) 在 训练 中 ， 将 强制 教学 替换 为 使 用 解码 器 在 上 一 时 间 步 的 输出 作为 解码 器 在 当前 时 间 步 的 
输入 ， 结 果 有 什么 变化 吗 ? 

(3) 试 着 使 用 更 大 的 翻译 数据 集 来 训练 模型 ， 如 WMT 和 Tatoeba Project. 








本 附录 总 结 了 本 书 中 涉及 的 有 关 线 性 代数 、 微 分 和 概率 的 基础 知识 。 
为 避免 费 述 本 书 未 涉及 的 数学 背景 知识 ， 本 节 中 的 少数 定义 稍 有 简化 。 


A.1 线性 代数 


下 面 分 别 概括 了 向 量 、 和 矩阵 、 运 算 、 范 数 、 特 征 同 量 和 特征 值 的 概念 。 





A.1.1 向 量 
本 书 中 的 向 量 指 的 是 列 向 量 。 一 个 nn 维 向 量 x 的 表达 式 可 写成 


其 中 x, x 是 向 量 的 元 素 。 我 们 将 各 元 素 均 为 实数 的 n 维 向 量 x 记 作 xeR" 或 xeR”。 


A.1.2 和 矩阵 
一 个 严 行 冉 列 短 阵 的 表达 式 可 写成 
a a 
x a 
in 


HEP xy 是 矩阵 羡 中 第 i 行 第 j 列 的 元 素 (1 <i<m,1< jn)。 我 们 将 各 元 素 均 为 实数 的 m 行 n 
Pi FRE X WE Xe Rw””。 不 难 发 现 ， 问 量 是 特殊 的 矩阵 。 
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A.1.3 运算 
设 n 维 向 量 a 中 的 元 素 为 a,…, 4,，n 维 向 量 b 中 的 元 素 为 8,…,b,。 同 量 a 与 5b 的 点 乘 ( 内 
积 ) 是 一 个 标量 : 


a-b = ab, 十 … 十 QD 


n 


设 两 个 闵行 到 列 矩阵 
CO Ain bi bh bin 
Pe a2) “22 An B bzi 22 Pan 
Ami m2 Amn ba Omg *** 7 


两 个 相同 形状 的 矩阵 的 加 法 是 将 两 个 矩阵 按 元 素 做 加 法 : 
| Qi thi a2 thy … a, tb, 
A+B= ar + Pai Wa ee Fan + Pan 


Am + On) Am2 +Dm2 i Bug FOR, 


我 们 使 用 符号 O 表示 两 个 矩阵 按 元 素 乘 法 的 运算 ， 即 阿达 马 积 (Hadamard product): 
abii Qab … Andy, 


AOB-= dn araia 4: Qanb2n 

Shia ail si nail 

定义 一 个 标量 k。 标 量 与 矩阵 的 乘法 也 是 按 元 素 做 乘法 的 运算 : 
Kay; ka) … kay, 
Te aay Mian ay kazn 
kapi Hapi o ham 


Hie- AA. RSH SEMPRA. EREI RIF 
根 号 、 取 对 数 等 运算 也 就 是 对 矩阵 每 个 元 素 开 根 写 、 取 对 数 等 ， 并 得 到 和 原 矩 阵 形状 相同 的 
FE BE 

FEE RR AFR TCR FEE A I] 0 A Nm íT p SUE, BA pit n IRER. BSB 
阵 相 乘 的 结果 
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ee 

Gay gg =: py i bij ee | ie 
o Sei diaaa Dap a 

ay, a dip : ; ? : 

b, b,, ve b. a bin 

Am Am2 Amp 


是 一 个 m 行 n JIRE, EPR TH) ASiS<m1<j<n) 的 元 素 为 


p 
k=l 
A.1.4 wx 
设 n 维 向 量 x 中 的 元 素 为 为,…, x, o HE x AL, EAA 
A 1 
pa sf 
i=l 
例如 ，x 的 石 范 数 是 该 向 量 元 素 绝对 值 之 和 : 
lzlh= >》 |x| 
i=] 


而 x 的 工 范 数 是 该 同 量 元 素平 方 和 的 平方 根 : 


/p 


n 


2 
xll2= ,| >, x; 


i=l 
我 们 通 第 用 ||x|| 指 代 ||xll。 
XÆ A m íT n FERE. ERE X HY Frobenius 范 数 为 该 矩阵 元 素平 方 和 的 平方 根 : 


Ixlz= JES 
i=l j=l 


其 中 xy DERE XER iT j WICK 


A.1.5 ”特征 向 量 和 特征 值 
对 于 一 个 n 行 n 列 的 矩阵 4， 假 设 有 标量 4 和 非 零 的 n 维 向 量 v 使 
Av = hy 
那么 v 是 矩阵 4 的 一 个 特征 向 量 ， 标 量 4 是 "对 应 的 特征 值 。 
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A.2 微分 


我 们 在 这 里 简要 介绍 微分 的 一 些 基本 概念 和 演算 。 


B.2.1 导数 和 微分 
假设 函数 SRR 的 输入 和 输出 都 是 标量 。 函 数 三 的 导数 
f°) tim ZED- S 
且 假定 该 极限 存在 。 给 定 y= f(x)， 其 中 x 和 y 分 别 是 函数 的 自 变量 和 因 变 量 。 以 下 有 关 时 


数 和 微分 的 表达 式 等 价 : 
pay= y= P-L pox) = Df) =D, S) 


其 中 符号 D 和 ddr 也 叫 微 分 运算 符 。 常 见 的 微分 演算 有 DC = 0 (CRARO, Dx" =n" (n 


为 常数 )、De* = ez 、Dln(x) =1/x $. 
MRAM SMe 都 可 导 ， 设 C 为 常数 ， 那 么 


G d 
at = are 
d d d 
Gl +g) =a J @) +8) 
d d d 
Oo (x)g(x)|= f Ole + et (x)] 


8) A 18) 


aol. 
dx| g(x) Le 
WR y = f(u) Alu = g(x) 都 是 可 导 函 数 ， 依 据 链 式 法 则 ， 
dy _ dy du 
dx du dx 
A.2.2 泰勒 展开 
函数 的 泰勒 展开 式 是 


Pph) 
fa} EO e-a 
n=0 ; 


其 中 fO Arma fA n SR OR n KGB, n! 为 于 的 阶乘 。 假 设 < 是 一 个 足够 小 的 数 ， 如 


果 将 上 式 中 x 和 a 分 别 蔡 换 成 x+c 和 xx， 可 以 得 到 
f+ ~ f(x)+f (Wet+O(e’) 


由 于 < 足够 小 ， 上 式 也 可 以 简化 成 
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f(xt+e) © f(x)+f (x)e 
A.2.3 偏 导 数 


设 4 为 一 个 有 nn 个 目 变 量 的 函数 ，u= 了 (x, XXn) CARR i NRE xX HATA 


f/m, Xia % +h, X 


— = lim fats An) S ia Np Tra Xn) 
Ox; h-0 h 
以 下 有 关 偏 导数 的 表达 式 等 价 : 
Ox; % Ox; Jr Ja Dif 


为 了 计算 ĝu / ôx; 只 需 将 X, Xis Nias os Xp 视 为 常数 并 求 u AR x; 的 导数 。 
A.2.4 梯度 


假设 函数 f :R” >R 的 输入 是 一 个 n 维 向 量 x=[x,x,,…,x,] ， 输 出 是 标量 。 函 数 f(x) 
AR x 的 梯度 是 一 个 由 nn 个 偏 导数 组 成 的 向 量 : 








vy f(xy =| I .. Fw) t 
. ON) ste Otay ss +E 


为 表示 简洁 ， 我 们 有 时 用 Vf(x) 代替 VS) 
假设 x 是 一 个 向量 ， 常 见 的 梯度 演算 包括 
V,A'x =A 
V,x A=A_ 
Vx' Ax =(A+A')x 
Ve ||| =V,x'x=2x 
类 似 地 ， 假 设 关 是 一 个 矩阵 ， 那 么 
Vx |X]; =2¥ 
A.2.5 海 森 矩 阵 


假设 函数 f :R" ~ 及 的 输入 是 一 个 n 维 向 量 x=[x,x,,…,x,] ， 输 出 是 标量 。 假 定 函数 
所 有 的 二 阶 偏 导 数 都 存在 ，f RERE H EA n {T n 列 的 矩阵 : 














AR ed 3 E 
oF ox = Om dx, 
.ey o f 
HG O a E i a, 
Hh ts of 
Ox, OX, Ox, OX» oa Ox? 


n 
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其 中 二 阶 偏 导 数 为 


SE 


Ox;Ox; Ox; \ Ox; 


A.3 概率 


最 后 ， 我 们 简要 介绍 条 件 概率 、 期 望 和 均匀 分 布 。 


A.3.1 条 件 概率 


假设 事件 4 和 事件 B 的 概率 分 别 为 P(4) 和 P(B)， 两 个 事件 同时 发 生 的 概率 记 作 P(AMB) 
或 P(A, B). REHEB, BF 4 的 条 件 概率 为 





P(A] By = PAD) 
P(B) 
也 就 是 说 ， 
P(AN B) = P(B)P(A| B) = P(A)P(B| A) 
当 满 足 


P(AN B) = P(A)P(B) 
时 ， 事 件 4 和 事件 BB 相互 独立 。 
A.3.2 期望 
离散 的 随机 变量 对 的 期 望 ( 或 平均 值 ) 为 
E(X)= xP(X = x) 


A.3.3 ”均匀 分 布 


假设 随机 变量 天 服从 [a, b] 上 的 均匀 分 布 ， 即 X~U(a,b). EIEE X HX a 和 4b 之 间 任 意 
一 个 数 的 概率 相等 。 


求 函 数 f(x) =3x +50 的 梯度 。 








本 附录 介绍 如 何 使 用 Jupyter 记事 本 编辑 和 运行 本 书 的 代码 。 请 确保 RUS 
你 已 按照 2.1 节 中 的 步骤 安装 好 Jupyter 记事 本 并 获取 了 本 书 的 代码 。 


B.1 在 本 地 编辑 和 运行 本 书 的 代码 


下 面 我 们 介绍 如 何在 本 地 使 用 Jupyter 记事 本 来 编辑 和 运行 本 书 的 代码 。 假 设 本 书 的 代码 所 
在 的 本 地 路 径 为 xx/yy/d2L-zh/ 。 在 命令 行 模式 下 进入 该 路 径 〈cd xx/yy/d21-zh)， 然 后 运行 
命令 jupyter notebook。 这 时 在 浏览 器 打开 http://ocalhost:8888 (通常 会 自动 打开 ) 就 可 以 
看 到 Jupyter 记事 本 的 界面 和 本 书 的 代码 所 在 的 各 个 文件 夹 ， 如 图 B-1 所 示 。 





二 Jupyter 





图 B-1 本 书 的 代码 所 在 的 各 个 文件 夹 


我 们 可 以 通过 点 击 网 页 上 显示 的 文件 夹 访问 其 中 的 记事 本 文件 。 它 们 的 后 级 通常 是 
“ipynb”。 简洁 起 见 ， 我 们 创建 一 个 临时 的 test.ipynb 文件 ， 点 击 后 所 显示 的 内 容 如 图 B-2 所 示 。 
该 笔记 本 包括 了 格式 化 文本 单元 (markdown cell) 和 代码 单元 (code cell) ， 其 中 格式 化 文本 
单元 中 的 内 容 包 括 “ 这 是 标题 ”和 “这 是 一 段 正 文 。”， 代 码 单元 中 包括 两 行 Python 代码 。 
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ab ~ Jupyter test (unsaved changes) 


oe or OU NO bee Foe rR PRR nent a 


File Edit View Fisi Cell T: kamel Help 


sels a i 


s 了 FUSS ety 
ret i ik tk Ni (hi ibis By ri hy Ht sib E Mem Eai Wi abet i Bae i iti o fin sii Line ita 
Aides ily ee ep ce: E Hite ESN RUA etal lik mee AAW a SWATH de eee ly 


In [ ]: from mxnet import nd 
nd.ones( (3, dis 


图 B-2 test.ipynb 文件 包括 了 格式 化 文本 单元 和 代码 单元 


双击 格式 化 文本 单元 ， 进 入 编辑 模式 。 在 该 单元 的 末尾 添加 一 段 新 文 本 “你 好 世界 。”， 
图 B-3 所 示 。 


TS JUpyter test (eevo changes 


ONG mn TOES ONT NERT ET E rr mr i TIT ep 343 i Eta e d Et AE pran peneem 
Pe a TA tage HLT ks a Sarat read UL TE ATA ee ae R S GA aeh s na UEST EN G A AET ENTERIN EAEI UERR ITN Fad eb ga are 
Ly Ài z eee 


| | th (i 
east i EA ei wil Hin da a NE Sn Hrn Ap sas Nas ARLA batt Mae! pe tt S | 
an i EUPA COT AMP a E AE a A ep Pte at! Ae Ve ae Th a a Ue bs woh Hh ` 
> 车 i 上 vas sila Ih o ERTEAN yt Md SSE PET Hine ses) iat aie Hall its EN dial ft i i RA ak Hini ilitia (ideal iái ENG IER a Hl 


In [ ]: from mxnet import nd 
nd.onesí (3, 4)) 
图 B-3 编辑 格式 化 文本 单元 


如 图 B-4 所 示 ， 点 击 菜单 栏 的 “Cell” 一 “Run Cells”， 运 行 编辑 好 的 单元 。 


Jupyter test (wove 


er pe re TT ee asa Had t RH ii 
Run Cells and Select Below Fe oi E he a sh 

bi $ j $ HRS APIS EAA IIR FETON sia mwili Ween ay 
Run Cells and Insert Below 


图 B-4 运行 单元 


运行 完 以 后 ， 图 B-5 展示 了 编辑 后 的 格式 化 文本 单元 。 











如 
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D SF sacl test unsaved changes) 


这 是 一 段 正 文 。 你 好 世界 。 


from mxnet import nd 
nd.ones((3, 4)) 





B-5 编辑 后 的 格式 化 文本 单元 
接 下 来 ， 点 击 代码 单元 。 在 最 后 一 行 代码 后 添加 乘 以 2 的 操作 * 2， 如 图 B-6 所 示 。 


~ Jupyter test (unsaved changes) 
-File Edt Vew inset Cel Kemel Help 


OD ci 


j gji 


sai HY | TRAIAN 州 
a Aks 


pi ikai? TE el ， ie} 





Re D w ie M as 





B-6 编辑 代码 单元 
我 们 也 可 以 用 快捷 键 运行 单元 〈 默 认 Ctrl + Enter) ， 并 得 到 图 B-7 所 示 的 输出 结果 。 


~ Jupyter teSt unsaved changes 


这 是 一 段 正文 。 你 好 世界 。 


In [1]: f 


Out[1]: 





图 B-7 运行 代码 单元 得 到 输出 结果 
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当 一 个 记事 本 包含 的 单元 较 多 时 ， 我 们 可 以 点 击 菜 单 栏 的 “Kemel” 一 “Restart & Run 
All”， 以 运行 整个 笔记 本 中 的 所 有 单元 。 点 击 菜 单 栏 的 “Help” 一 “Edit Keyboard Shortcuts” 
后 可 以 根据 自己 的 偏好 编辑 快捷 键 。 


B.2 高 级 选项 


下 面 介绍 有 关 使 用 Jupyter 记事 本 的 一 些 高 级 选项 。 读 者 可 以 根据 自己 的 兴趣 参考 其 中 
的 内 容 。 


B.2.1 用 Jupyter 记 事 本 读 写 GitHub 源 文件 

如 果 想 为 本 书 内 容 做 贡献 ， 需 要 修改 在 GitHub 上 markdown 格式 的 源 文件 (扩展 名 为 
.md)。 通 过 notedown 插件 ， 就 可 以 使 用 Jupyter 记事 本 修改 并 运行 markdown 格式 的 源 代 码 。 
Linux/macOS 用 户 可 以 执行 以 下 命令 获得 GitHub 源 文件 并 激活 运行 环境 : 

git clone https://github.com/d2l-ai/d21l-zh.git 

cd d2l-zh 

conda env create -f environment.yml 


# 若 conda 版 本 低 于 4 .4， 运 行 source activate gluon; Windows 用 户 则 运行 activate gluon 
conda activate gLuon 


下 面 安装 notedown 插件 ， 运 行 Jupyter 记事 本 并 加 载 插件 。 


pip install https://github.com/mli/notedown/tarball/master 
jupyter notebook --NotebookApp.contents_manager_class='notedown.NotedownContentsManager 


I 
一 全 


如 果 想 每 次 运行 Jupyter 记事 本 时 默认 开启 notedown 插件 ， 可 以 参考 下 面 的 步骤 。 
首先 ， 执 行 下 面 的 命令 生成 Jupyter 记事 本 配置 文件 (如 果 已 经 生成 ， 可 以 跳 过 ): 
jupyter notebook --generate-config 


然后 ， 将 下 面 这 一 行 加 入 到 Jupyter SAR BCH (— ATER PE Be FY Be oC HP 
.jupyter 中 的 jupyter_notebook_config.py) MIKE: 


c.NotebookApp.contents_manager_class = 'notedown.NotedownContentsManager ' 


之 后 ， 只 需要 运行 jupyter notebook 命令 即 可 默认 开启 notedown 插件 。 


B.2.2 ”在 远 端 服务 器 上 运行 Jupyter 记 事 本 


有 时 候 ， 我 们 希望 在 远 端 服务 器 上 运行 Jupyter 记事 本 ， 并 通过 本 地 计算 机 上 的 浏览 器 访 
间 。 如 果 本 地 计算 机 上 已 经 安装 了 Linux 或 者 macOS (Windows 通过 putty 等 第 三 方 软件 也 能 
支持 )， 那 么 可 以 使 用 端口 映射 。 


ssh myserver -L 8888:localhost:8888 
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Jupyter 记事 本 。 


B.2.3 运行 计时 
我 们 可 以 通过 ExecutionTime 插件 来 对 Jupyter 记事 本 的 每 个 代码 单元 的 运行 计时 。 下 面 是 
安装 该 插件 的 命令 : 


pip install jupyter_contrib_nbextensions 
jupyter contrib nbextension install --user 
jupyter nbextension enable execute_time/ExecuteTime 


小 结 
© 可 以 使 用 Jupyter 记事 本 编辑 和 运行 本 书 的 代码 。 


练习 
尝试 在 本 地 编辑 和 运行 本 书 的 代码 。 








使 用 AWS 运 行 代码 





当 本 地 机 器 的 计算 资源 有 限时 ， 可 以 通过 云 计算 服务 获取 更 强大 的 计 
算 资 源 来 运行 本 书 中 的 深度 学 习 代 码 。 本 节 将 介绍 如 何在 AWS OF Si [m] [m] 
it BARS) 上 申请 实例 并 通过 Jupyter 记事 本 运行 代码 。 本 附录 中 的 例 
子 有 如 下 两 个 步骤 。 

(1) 申请 含 一 个 K80 GPU 的 p2.xlarge 实例 。 

(2) 安装 CUDA 及 相应 GPU 版 本 的 MXNet。 


申请 其 他 类 型 的 实例 或 安装 其 他 版 本 的 MXNet 的 方法 与 本 节 关 似 。 






C.1 申请 账号 并 登录 


首先 ， 我 们 需要 在 AWS 官方 网 站 上 创建 账号 。 这 通常 需要 一 张 信 用 卡 。 需 要 注意 的 是 ， 
AWS 中 国 需 要 公司 实体 才能 注册 。 如 果 你 是 个 人 用 户 ， 请 注册 AWS 全 球 账 号 。 


登录 AWS 账号 后 ， 点 击 图 C-1 红 框 中 的 “EC2” 进 入 EC2 面板 。 


Services ~ Resource Groups ~v 


AWS services 


> Recently visited services 


v All services 


KA Compute = Developer Tools 
CodeStar 


EC2 Container Service CodeCommit 
Lightsail 区 CodeBuild 
Elastic Beanstalk CodeDeploy 
Lambda CodePipeline 





图 C-1 登录 AWS 账号 
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C.2 创建 并 运行 EC2 实 例 


图 C-2 展示 了 EC2 面板 的 界面 。 在 图 C-2 右上 和 角 红 框 处 选择 离 我 们 较 近 的 数据 中 心 来 降 
低 延 迟 。 我 们 可 以 选 亚太 地 区 ， 如 Asia Pacific (Seoul)。 注 意 ， 有 些 数据 中 心 可 能 没有 GPU 
实例 。 点 击 图 C-2 下 方 红 框 内 “Launch Instance” 按 钮 启动 实例 。 


Resource Groups 


i Resources Œ Account Attrib 
t 4 
: Supported Platforms 

+ Running instances T Elastic IPs 


-) Load Balancers 


3 INSTANCES i ' i | 
H i RUES 
Instances í a te a 


EEE 
ae 


n $: i eed 
uests if RENSA MEERES 
i 


Resource ID length 


Reserved Instances Additional Info 


Oe Oe Just need a simple virtual private server? Get everything you need to jumpstart your 
project - compute, storage, and networking ~ for a low, predictable price. Try Amazon 
Lightsail for free. 


Dedicated Hosts 


Create Instance 
Bundle Tasks 


To start using Amazon EC2 you will want to launch a virtual server, known as an Amazon EC2 
instance. 


Volumes f 
= posta 


NETWORK & SECURITY Note: Your instances will launch in the US West (Oregon) region the AWS Marketpiace 
Security Groups i U2 Laune zard. U 


图 C-2 EC2 面板 


图 C-3 的 最 上 面 一 行 显示 了 配置 实例 所 需 的 7 个 步骤 。 在 第 一 步 “1. Choose AMI” 中 ， 选 
择 Ubuntu 16.04 作为 操作 系统 。 


ELASTIC BLOCK STORE f 





1. Choose AMI 2. Choose Instance Type 3. Configure Instance 4. Add Storage 5. Add Tags 6. Configure Security Group 7. Review 


Step 1: Choose an Amazon Machine Image (AMI) Cancel and Exit 


ee mentee Ge Bre Heme tree 


Ubuntu Server 16.04 LTS (HVM), SSD Volume Type - ami- 
6e1a0117 


64-bit 
Ubuntu Server 16.04 LTS (HVM),EBS General Purpose (SSD) Volume Type. 


Support available from Canonical (http://Awww.ubuntu.com/cioud/services). 


Root device type: ebs Virtualization type: hvm 





图 C-3 选择 操作 系统 


EC2 提供 了 大 量 不 同 配 置 的 实例 。 如 图 C-4 所 示 ， 在 第 二 步 “2. Choose Instance Type” 中 ， 
选择 有 一 个 K80 GPU 的 p2.xlarge 实例 。 我 们 也 可 以 选择 像 p2.16xlarge 这 样 有 多 个 GPU 的 实 
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例 。 如 果 想 比较 不 同 实例 的 机 器 配置 和 收费 ， 可 参考 https://www.ec2instances.info/ 。 


1. Choose AMI 2. Choose Instance Type 3. Configure instance 


Step 2: Choose 


"mm Kaa 


* cal 
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C-4 选择 实例 


建议 在 选择 实例 前 先 在 图 C-2 左 栏 “Limits” 标 签 里 检查 一 下 有 无 数量 限制 。 如 图 C-5 所 
示 ， 该 账号 的 限制 是 最 多 在 一 个 区 域 开 一 个 p2.xlarge 实例 。 如 果 需 要 开 更 多 实例 ， 可 以 通过 
点 击 右 边 “Request limit increase ”链接 来 申请 更 大 的 实例 容量 。 这 通常 需要 一 个 工作 日 来 处 理 。 


| funig On-Demand d p2.16xlarge Instances | Request limit increase 


Running On-Demand p2.8xlarge instances 1 Request limit increase 





Running On-Demand p2.xlarge instances 1 Request limit increase 


ing On-Demand r3.2xlarge instances 20 Request limit increase 


C-5 实例 的 数量 限制 


我 们 将 保持 第 三 步 “3. Configure Instance”、 第 五 步 “5. Add Tags” 和 第 六 步 “6. Configure 
Security Group” 中 的 默认 配置 不 变 。 点 击 第 四 步 “4. Add Storage”， 如 图 C-6 所 示 ， 将 默认 的 
硬盘 大 小 增 大 到 40 GB。 注 意 ， 安 装 CUDA 需要 4 GB 左右 空间 。 








1. Choose AMI 





2. Choose Instance Type 3. Configure Instance 


Step 4: Add Storage 


ii 


4. Add Storage 


bose 


C-6 修改 实例 的 硬盘 大 小 


最 后 ， 在 第 七 步 “7. Review” 中 点 击 “Launch” 来 启动 配置 好 的 实例 。 这 时 候 会 提示 我 
们 选择 用 来 访问 实例 的 密 钥 。 如 果 没 有 的 话 ， 可 以 选择 图 C-7 中 第 一 个 下 拉 菜 单 的 “Create a 
new key pair” 选 项 来 生成 秘 钥 。 Zia, KAW FARAH] “Choose an existing key pair” 
选项 选择 生成 好 的 密 钥 。 点 击 “Launch Instances” 按 钮 启动 创建 好 的 实例 。 
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A key pair consists of a public key that AWS stores, and a private key file that you store, Together, 
they allow you to connect to your instance securely. For Windows AMIs, the private key file is required 
to obtain the password used to log into your instance. For Linux AMIs, the private key file allows you to 
securely SSH into your instance. 


Note: The selected key pair will be added to the set of keys authorized for this instance. Learn more 
about removing existing key pairs from a public AMI. 


sedge that | have access to the selected private key file (mu.pem), and that without 
be abie to log into my instance. 





图 C-7 选择 密 钥 
点 击 图 C-8 所 示 的 实例 ID 就 可 以 查看 该 实例 的 状态 了 。 


Launch Status 





图 C-8 点 击 实例 ID 


如 图 C-9 所 示 ， 当 实例 状态 Cinstance State) 变 绿 后 ， 右 击 实 例 并 选择 “Connect”， 这 时 
就 可 以 看 到 访问 该 实例 的 方法 了 。 例 如 ， 在 命令 行 输入 以 下 命令 : 


ssh -i "/path/to/key.pem" ubuntu@ec2-xx-XxXxx-XxXxX-XXX .y .compute .amazonaws .com 


其 中 /path/to/key.pem 是 本 地 存放 访问 实例 的 密 钥 的 路 径 。 当 命令 行 提 示 “Are you sure you 
want to continue connecting (yes/no)” 时 ， 键 入 “yes” 并 按 回 车 键 即 可 登录 创建 好 的 实例 。 





图 C-9 查看 访问 开启 实例 的 方法 


为 了 使 用 GPU 版 本 的 MXNet， 我 们 还 需要 在 创建 好 的 实例 上 安装 CUDA 《参考 C.3 市 )。 
实际 上 ， 我 们 也 可 以 直接 创建 已 安装 CUDA 的 实例 ， 例 如 ， 在 第 一 步 “1. Choose AMI” 中 ， 
选择 “Deep Learning Base AMI (Ubuntu) Version XX.X”， 并 保持 后 面 步骤 不 变 。 登 录 实 例 后 ， 
运行 cat README 命令 查看 实例 上 已 安装 的 CUDA 各 版 本 《假设 含 9.0)。 如 果 和 希望 将 CUDA 
的 默认 版 本 设 为 9.0， 依 次 运行 命令 sudo rm /usr/local/cuda fil sudo ln -s /usr/local/ 
cuda-9.0 /usr/LocaL/cuda。 之 后 ， 即 可 跳 过 C.3 节 的 CUDA 安装 步骤 。 


C.3 安 委 CUDA 


下 面 介 绍 CUDA 的 安装 步骤 。 首 先 ， 更 新 并 安装 编译 需要 的 包 。 
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sudo apt-get update && sudo apt-get install -y build-essential git libgfortran3 


NVIDIA 一 般 每 年 会 更 新 一 次 CUDA 主 版 本 。 这 里 我 们 下 载 CUDA 9.0〈 也 可 使 用 MXNet 52 
持 的 其 他 版 本 )。 访 问 NVIDIA 官方 网 站 获取 正确 版 本 的 CUDA 9.0 的 下 载 地 址 ， 如 图 C-10 所 示 。 


Select Target Platform @ 





Click on the green buttons that describe your target platform. Only supported platforms 
| will be shown. 
| Operating System 
| Architecture @ 

| 


Distribution 
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Installer Type @ 
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Download Installers for Linux Ubuntu 16.04 x86 64 


| The base installer is available for download below. 
| There are 4 patches available. These patches require the base installer to be installed 


first. 
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| Installation Instructions: 
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C-10 ”获取 CUDA 9.0 的 下 载 地 址 


获取 下 载 地 址 后 ， 下 载 并 安装 CUDA 9.0。 例 如 : 


# 以 NVIDIA 官 方 网 站 上 的 下 载 链 接 和 安装 文件 名 为 准 

wget https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_ 
+384.81_Linux-run 

sudo sh cuda_9.0.176_384.81_lLinux-run 


点 击 Ctrl+C 跳出 文档 浏览 ， 并 回答 以 下 几 个 问题 : 


Do you accept the previously read EULA? 
accept/decline/quit: accept 

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 384.81? 
(y)es/(n)o/(q)uit: y 

Do you want to install the OpenGL libraries? 
(y)es/(n)o/(q)uit [ default is yes J: y 

Do you want to run nvidia-xconfig? 

This will ... vendors. 

(y)es/(n)o/(q)uit [ default is no J: n 

Install the CUDA 9.0 Toolkit? 

(y)es/(n)o/(q)uit: y 

Enter Toolkit Location 

[ default is /usr/local/cuda-9.0 ]: 

Do you want to install a symbolic link at /usr/local/cuda? 
(y)es/(n)o/(q)uit: y 

Install the CUDA 9.0 Samples? 

(y)es/(n)o/(q)uit: n 
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当 和 安装 完成 后 ， 运 行 下 面 的 命令 就 可 以 看 到 该 实例 的 GPU T: 

nvidia-smi 

最 后 ， 将 CUDA 加 入 到 库 的 路 径 中 ， 以 方便 其 他 库 找到 它 。 如 果 使 用 其 他 版 本 或 其 他 路 
需要 修改 以 下 命令 中 的 字符 串 “/usr/LocaL/cuda-9.9?”: 


echo "export LD_LIBRARY_PATH=\${LD_LIBRARY_PATH}: /usr/local/cuda-9.0/lib64" >> ~/. 
—bashre 


C.4 获取 本 书 的 代码 并 安 和 GPU 版 的 MXNet 


我 们 已 在 2.1 节 中 介绍 了 Linux 用 户 获 取 本 书 的 代码 并 安装 运行 环境 的 方法 。 首 先 ， 安 装 


Linux 版 的 Miniconda， 例 如 : 


码 ， 


# 以 Miniconda 官 方 网 站 上 的 下 载 链接 和 安装 文件 名 为 准 
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh 
sudo sh Miniconda3-Latest-Linux-x86_64.sh 


这 时 需要 回答 下 面 几 个 问题 (如 当 conda RAW 4.6.14 IY): 


Do you accept the license terms? [yes|no] 

[no] >>> yes 

Do you wish the installer to initialize Miniconda3 
by running conda init? [yes|no] 

[no] >>> yes 


安装 完成 后 ， 运 行 一 次 source ~/.bashrc it CUDA 和 conda 生效 。 接 下 来 ， 下 载 本 书 代 
安装 并 激活 conda 环境 。( 若 未 安装 unzip， 可 运行 命令 sudo apt install unzip 安装 。) 
mkdir d2l-zh && cd d2l-zh 

curl https://zh.d2l.ai/d2l-zh-1.0.ztp -o d21-zh.zip 

unzip d2l-zh.zip && rm d21-zh.zip 


conda env create -f environment. yml 
conda activate gluon 


默认 conda 环境 里 安装 了 CPU 版 本 的 MXNet。 现 在 我 们 将 它 替 换 成 GPU 版 本 的 MXNet. 


因为 CUDA 的 版 本 是 9.0， 所 以 安装 mxnet-cu906。 一 般 来 说 ， 如 果 CUDA kE XY, 那么 
相应 安装 mxnet-cuXyY. 


pip uninstall mxnet 


pip install mxnet-cu90==X.Y.Z # X.Y.Zz 应 替换 为 本 书 的 代码 依赖 的 版 本 号 


C.5 运行 Jupyteri 记 事 本 


现在 就 可 以 运行 Jupyter 记事 本 了 。 


jupyter notebook 
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图 C-11 展示 了 运行 后 可 能 的 输出 ， 其 中 最 后 一 行为 8888 端口 下 的 URL. 





图 C-11 运行 Jupyter 记事 本 后 的 输出 ， 其 中 最 后 一 行为 8888 端口 下 的 URL 


由 于 创建 的 实例 并 没有 骏 露 8888 亲口， 我 们 可 以 在 本 地 命令 行 启动 ssh 从 实例 映射 到 本 
地 8889 sig H -o 
# 该 命令 须 在 本 地 命令 行 运行 
ssh -i "/path/to/key.pem" ubuntu@ec2-xx-xxx-xxx-xxx.y.compute.amazonaws.com -L . 
+8889: LocaLlhost: 8888 
最 后 ， 把 图 C-11 中 运行 Jupyter 记事 本 后 输出 的 最 后 一 行 URL 复制 到 本 地 浏览 器 ， 并 将 
8888 改 为 8889， 点 击 回 车 键 即 可 从 本 地 浏览 器 通过 Jupyter 记事 本 运行 实例 上 的 代码 。 


C.6 关闭 不 使 用 的 实例 


因为 云 服 务 按 使 用 时 长 计 费 ， 我 们 通常 会 在 不 使 用 实例 时 将 其 关闭 。 


如 果 较 短 时 间 内 还 会 重新 开局 实例 ， 右 击 图 C-9 中 的 示例 ， 选 择 “Instance State” > “Stop” 
将 实例 停止 ， 等 下 次 使 用 时 选择 “Instance State” 一 “Start” 重 新 开启 实例 。 这 种 情况 下 ， 开 
局 的 实例 将 保留 其 停止 前 硬盘 上 的 存储 (例如 ， 无 须 再 安装 CUDA 和 其 他 运行 环境 )。 然 而 ， 
停止 状态 的 实例 也 会 因 其 所 保留 的 硬盘 空间 而 产生 少量 计 费 。 


如 果 较 长 时 间 内 不 会 重新 开启 实例 ， 右 击 图 C-9 中 的 示例 ， 选 择 “Image” 一 “Create” 创 
建 镜像 。 然 后 ， 选 择 “Instance State ”一 “Terminate” 将 实例 终止 (硬盘 不 再 产生 计 费 )。 当 下 
次 使 用 时 ， 可 按 本 节 中 创建 并 运行 EC2 实例 的 步骤 重新 创建 一 个 基于 保存 的 镜像 的 实例 。 唯 
一 的 区 别 在 于 ， 在 图 C-3 的 第 一 步 “1. Choose AMI” 中 ， 需 要 通过 左 栏 “My AMIs” 选 择 之 前 
保存 的 镜像 。 这 样 创建 的 实例 将 保留 镜像 上 硬盘 的 存储 ， 例 如 ， 无 有 顷 再 安装 CUDA 和 其 他 运 
行 环 境 。 


小 结 
© 可 以 通过 云 计 算 服 务 获 取 更 强大 的 计算 资源 来 运行 本 书 中 的 深度 学 习 代 码 。 


练习 
云 很 方便 ， 但 不 便宜 。 研 究 一 下 它 的 价格 ， 看 看 如 何 节省 开销 。 








深度 学 习 训练 通常 需要 大 量 的 计算 资源 。GPU 目前 是 深度 学 习 最 常 使 要 码 直 达 讨 论 区 
用 的 计算 加 速 硬件 。 相 对 于 CPU Rit, GPU 更 便宜 且 计 算 更 加 密集 。 一 
方面 ， 相 同 计 算 能 力 的 GPU 的 价格 一 般 是 CPU 价格 的 十 分 之 一 ; 另 一 方 
面 ， 一 台 服 务 器 通常 可 以 搭载 8 块 或 者 16 GPU. At, GPU 数量 可 以 
看 作 是 衡量 一 台 服 务 器 的 深度 学 习 计算 能 力 的 一 个 指标 。 





D.1 选择 GPU 


目前 独立 显卡 主要 有 AMD 和 NVIDIA 两 家 厂商 。 其 中 NVIDIA 在 深度 学 习 布 局 较 早 ， 对 
深度 学 习 框 架 支持 更 好 。 因 此 ， 目 前 大 家 主要 会 选择 NVIDIA 的 GPU. 


NVIDIA AMIS AH n GTX 系列 ) 和 企业 用 户 〈 如 Tesla 系列 ) 的 两 类 GPU。 这 
两 类 GPU 的 计算 能 力 相 当 。 然 而 ， 面 向 企业 用 户 的 GPU 通常 使 用 被 动 散热 并 增加 了 显存 校 验 ， 
从 而 更 适合 数据 中 心 ， 并 通常 要 比 面向 个 人 用 户 的 GPU RE 10 倍 。 


如 果 是 拥有 100 台 机 器 以 上 的 大 公司 用 户 ， 通 常 可 以 考虑 针对 企业 用 户 的 NVIDIA Tesla 
系列 。 如 果 是 拥有 10 一 100 台 机 器 的 实验 室 和 中 小 公司 用 户 ， 预 算 充 足 的 情况 下 可 以 考虑 
NVIDIA DGX 系列 ， 否 则 可 以 考虑 购买 如 Supermicro 之 类 的 性 价 比 比较 高 的 服务 器 ， 然 后 再 
购买 安装 GTX 系列 的 GPU。 


NVIDIA 一 般 每 一 两 年 发 布 一 次 新 版 本 的 GPU， 例 如 ，2016 年 发 布 的 GTX 1000 系列 以 及 
2018 年 发 布 的 RTX 2000 系列 。 每 个 系列 中 会 有 数 个 不 同 的 型 号 ， 分 别 对 应 不 同 的 性 能 。 


GPU 的 性 能 主要 由 以 下 3 个 参数 构成 。 

C1) 计算 能 力 。 通 常 我 们 关心 的 是 32 位 浮 点 计算 能 力 。16 位 浮 点 训练 也 开始 流行 ， 如 果 
只 做 预测 的 话 也 可 以 用 8 位 整数 。 

(2) 显存 大 小 。 当 模型 越 大 或 者 训练 时 的 批量 越 大 时 ， 所 需要 的 显存 就 越 多 。 

(3) 显存 带宽 。 只 有 当 显 存 带宽 足够 时 才能 充分 发 挥 计算 能 力 。 
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对 大 部 分 用 户 来 说 ， 只 要 考虑 计算 能 力 就 可 以 了 。 显 存 尽量 不 小 于 4 GB。 但 如 果 GPU 
要 同时 显示 图 形 界 和 面 ， 那 么 推荐 的 显存 大 小 至 少 为 6 GB。 显 存 带 宽 通常 相对 固定 ， 选 择 空 
间 较 小 。 


图 D-1 描绘 了 GTX 900 和 GTX 1000 系列 里 各 个 型 号 的 32 位 浮 点 计算 能 力 和 价格 的 对 比 
(其 中 的 价格 为 Wikipedia 的 建议 价格 )。 






(美元 ) | é | Titan Z 
1500 — pa -一 十 一 一 
| | | Titan 
| Titan X Po, 
| _ eT 
1000 一 一 + 一 AE aa 1.080 Ti 


| 


2000 4000 6000 8000 10000 12000 
每 秒 10 亿 的 浮 点 运算 次 数 
图 D-1 浮 点 计算 能 力 和 价格 的 对 比 


我 们 可 以 从 图 D-1 中 读 出 以 下 两 点 信息 。 

(1) 在 同一 个 系列 里 面 ， 价 格 和 性 能 大 体 上 成 正比 。 但 后 发 布 的 型 号 性 价 比 更 高 ， 如 980 
Ti 和 1080 Ti. 

(2) GTX 1000 系列 比 900 系列 在 性 价 比 上 高 出 2 倍 左右 。 


如 果 大 家 继续 比较 NVIDIA 的 一 些 其 他 系列 ， 也 可 以 发 现 类 似 的 规律 。 据 此 ， 我 们 推荐 大 
家 在 能 力 范围 内 尽 可 能 买 较 新 的 GPU. 


D.2 整 机 配置 


通常 ， 我 们 主要 用 GPU 做 深度 学 习 训 练 。 因 此 ， 不 需要 购买 高 端的 CPU。 至 于 整 机 配置 ， 
尽量 参考 网 上 推荐 的 中 高 档 的 配置 就 好 。 不 过 ， 考 虑 到 GPU 的 功 耗 、 散 热 和 体积 ， 在 整 机 配 
置 上 也 需要 考虑 以 下 3 个 额外 因素 。 


(1) 机 箱 体积 。 显 卡尺 寸 较 大 ， 通 常 考虑 较 大 且 自 带 风 扇 的 机 箱 。 
(2) 电源 。 购 买 GPU 时 需要 查 一 下 GPU 的 功 耗 ， 如 s50 W 到 300 W 不 等 。 购 买 电源 要 确 
保 功 率 足 够 ， 且 不 会 造成 机 房 供电 过 载 。 
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(3) 主板 的 PCIe 卡 槽 。 推 荐 使 用 PCIe 3.0 16x 来 保证 充足 的 GPU 到 内 存 的 带宽 。 如 果 搭 
载 多 块 GPU， 要 仔细 阅读 主板 说 明 ， 以 确保 多 块 GPU 一 起 使 用 时 仍然 是 16 倍 带宽 。 注 意 ， 
有 些 主板 搭载 4 块 GPU 时 会 降 到 8 倍 甚至 4 倍 带宽 。 


小 结 
。 在 预算 范围 内 ， 尽 可 能 买 较 新 的 GPU. 
© 整 机 配置 需要 考虑 到 GPU 的 功 耗 、 散 热 和 体积 。 








我 们 在 “致谢 ”中 感谢 了 本 书 的 所 有 贡献 者 ， 并 列 出 他 们 的 GitHub ID MMMM 


或 姓名 。 每 位 贡献 者 也 将 在 本 书 出 版 时 获得 一 本 页 献 者 专 主 的 赠 书 。 


你 可 以 在 本 书 的 GitHub 代码 库 查 看 贡献 者 列表 "。 如 果 你 希望 成 为 本 书 
的 贡献 者 之 一 ， 需 要 安装 Git 并 为 本 书 的 GitHub 代码 库 提交 pullrequest”。 当 
你 的 pull request 被 本 书 作 者 合并 进 了 代码 库 后 ， 你 就 成 为 了 本 书 的 贡献 者 。 


本 附录 介绍 为 本 书 贡献 的 基本 Git 操作 步骤 。 

下 列 操 作 步骤 假设 贡献 者 的 GitHub ID 为 “astonzhang”. 

第 一 步 ， 安 装 Git. Git 的 开源 书 里 详细 介绍 了 安装 Git 的 方法 。 如 果 你 没有 GitHub 账号 ， 
需要 注册 一 个 账号 。 

第 二 步 ， 登 录 GitHub。 在 浏览 器 输入 本 书 的 代码 库 地 址 。 点 击 图 E-1 右上 方 红 框 中 的 
“Fork” 按 钮 获得 一 份 本 书 的 代码 库 。 





© d2l-ai / d2l-zh 
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E-1 代码 库 的 页 面 


Q@ ”本 书 的 贡献 者 列表 参见 https://github.com/d21-ai/d21-zh/graphs/contributors。 
Q ”本 书 的 代码 库 地 址 为 https://github.com/d21-ai/d21-zh。 
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这 时 ， 本 书 的 代码 库 会 复制 到 你 的 用 户 名 下 ， 例 如 图 E-2 左上 方 显示 的 “你 的 GitHub 用 
户 名 /d21-zh”。 
y astonzhang / d2ł-zh © watch » | 0 | WStar 0 | ¥Fork = 1,523 


<> Code Pull requests 0 FT Projects 0 di Insights <} Settings 


《动手 学 深度 学 习 》。 面 向 中 文 读者 、 能 运行 、 可 讨论 。 


Manage tonics 


{P 2,404 commits 1 branch ME 116 contributors th Apache-2.0 


Branch: master + New pull request Create new file Upload files Find file 


This branch is even with d2l-ai:master. Clone with HTTPS © Use SSH 
es astonzhene gluon -> succinct Use Git or checkout with SVN using the web URL. 


https://github.com/astonzhang/d2\—zh 
S build temperately upload into two $3 buckets 


@ chapter appendix gluon -> succinct 





Open in Desktop Download ZIP 


i chapter_computational-performance gluon -> succinct STOUT agU" 


图 E-2 复制 代码 库 
第 三 步 ， 点 击 图 E-2 AAH “Clone or download” 绿 色 按 钮 ， 并 点 击 红 框 中 的 按钮 复制 位 
于 你 的 用 户 名 下 的 代码 库 地 址 。 按 2.1 节 中 介绍 的 方法 进入 命令 行 模 式 。 假 设 我 们 希望 将 代码 
库 保 存在 本 地 的 ~/repo 路 径 之 下 。 进 入 该 路 径 ， 键 入 git clone 并 粘贴 位 于 你 的 用 户 名 下 的 
代码 库 地 址 。 执 行 以 下 命令 : 


# 将 your_GitHub_ID 替 换 成 你 的 GitHub 用 户 名 
git clone https://github.com/your_GitHub_ID/d2l-zh.git 


这 时 ， 本 地 的 ~/repo/d2L-zh 路 径 下 将 包含 本 书 的 代码 库 中 的 所 有 文件 。 


第 四 步 ， 编 辑 本 地 路 径 下 的 本 书 的 代码 库 。 假 设 我 们 修改 了 ~/repo/d2l-zh/chapter_ 
deep-learning-basics/linear-regression.md 文件 中 的 一 个 错别字 。 在 命令 行 模式 中 进 
入 路 径 ~/repo/d21-zh， 执 行 命令 


git status 


此 时 Git 将 提示 chapter_deep-learning-basics/linear-regression.md 文件 已 被 修改 ， 
如 图 E-3 所 示 。 


E ~ /repo/d21-zh 





图 E-3 Git 提示 chapter_deep-learning-basics/linear-regression.md 文件 已 被 修改 


确认 将 提交 该 修改 的 文件 后 ， 执 行 以 下 命令 : 
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git add chapter_deep-learning-basics/linear-regression.md 

git commit -m 'fix typo in linear-regression.md' 

git push 
其 中 的 'fix typo in linear-regression.md' 是 描述 提交 改动 的 信息 ， 也 可 以 替换 为 其 他 
有 意义 的 描述 信息 。 

第 五 步 ， 再 次 在 浏览 器 输入 本 书 的 代码 库 地 址 。 点 击 图 E-1 左 方 红 框 中 的 “New pull 
request” 按 钮 。 在 弹出 的 页 面 中 ， 点 击 图 E-4 右 方 红 框 中 的 “compare across forks” 链 接 ， 再 


点 击 下方 红 框 中 的 “head fork: d21-ai/d21-zh” 按 钮 。 在 弹出 的 文本 框 中 输入 你 的 GitHub 用 户 名 ， 
在 下 拉 菜 单 中 选择 “你 的 GitHub 用 户 名 /d21-zh”， 如 图 E-4 所 示 。 


— ‘Somme see Humvee Wren va 


<>Code | Pult requests © Fi Projects 6 lli insights {®© Settings 


Compare changes 
Compare changes across branches, commits, tags, and more below. If you need to, you can aisofcompare across forks] 





E-4 选择 改动 来 源 所 在 的 代码 库 


第 六 步 ， 如 图 E-5 所 示 ， 在 标题 和 正文 的 文本 框 中 描述 想 要 提交 的 pull request。 点 击 红 框 
中 的 “Create pull request” 绿 色 按 钮 提交 pull request. 


ae Lue | s | (ikuai seve | [Meee | en 
<> Code M Pull requests 0 FI Projects 0 Ly Insights © Settings 


Open a pull request 


Create a new pull request by comparing changes across two branches. if you need to, you can also compare across forks. 


A _ base fork: d2l-ai/d2i-zh ~ | base: master ~ ha head fork: astonzhang/d2!-zh ~ j| compare: master ~ 


Z Able to merge. These branches can be automatically merged. 


a fix typo in linear-regression.md 


Write | Preview f ses @hRA 


This pull request is to fix a typo in linear-regression.md. 


Attach files by dragging & dropping, selecting them, or pasting from the clipboard. 
$ Allow edits from maintainers. Learn more 


图 E-5 描述 并 提交 pull request 
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提交 完成 后 ， 我 们 会 看 到 图 E-6 所 示 的 页 面 中 显示 pull request 已 提交 。 


G d2l-ai / d2l-zh | © unwatch 365 | | X unstar | 5,616 || Y Fork | 1,523 


“Code Pull requests 4 PFI Projects 0 ll insights  {% Settings 


fix typo in linear-regression.md #461 


ule. astonzhang wants to merge 1 commit into d2\-ei:easter from astonzhang: master 


O Conversation 0 Commits 4 B Checks (0) {$} Files changed 4 +1 一 1 ee 


‘fa astonzhang commented just now 


are ek sanam ee aea -一 -一 -一 一 一 -<- 一 一 一 we an 


This pull request is to fix a typo in linear-regression.md. 
> ‘3 fix typo in Linear-regression.md 6bc3878 Noone—assign yourself 





图 E-6 显示 pull request 已 提交 


小 结 
。 可 以 通过 使 用 GitHub 为 本 书 做 贡献 。 


练习 
如 果 你 觉得 本 书 某 些 地 方 可 以 改进 ， 尝 试 提交 一 个 pull request. 





函数 、 类 等 名 称 


bbox_to_rect 
Benchmark 

corr2d 

count_tokens 
data_iter 
data_iter_consecutive 
data_iter_random 
download_imdb 
download_voc_pascal 
evaluate_accuracy 
get_data_ch7 
get_fashion_mnist_labels 
get_tokenized_imdb 
get_vocab_imdb 
grad_clipping 

Linreg 
load_data_fashion_mnist 
load_data_jay_lyrics 
load_data_pikachu 
mkdir_if_not_exist 
plt 

predict_rnn 
predict_rnn_gluon 
predict_sentiment 


preprocess_imdb 





定义 所 在 节 编 号 
9.3 
8.2 
5.1 
10.7 
3.2 
6.3 
6.3 
10.7 
9.9 
9.1 
7.3 
Ja 
10.7 
10.7 
6.4 
3.2 
5.6 
6.3 
9.6 
9.12 
3.2 
6.4 
6.5 
10.7 
10.7 
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函数 、 类 等 名 称 
read_imdb 
read_voc_images 
Residual 
resnetl18 
RNNModel 
semi Logy 
set_figsize 
sgd 
show_bboxes 
show_fashion_mnist 
show_images 
show_trace_2d 
squared_loss 
to_onehot 
train 
train_2d 
train_and_predict_rnn 
train_and_predict_rnn_gluon 
train_ch3 
train_ch5 
train_ch7 
train_gluon_ch7 
try_all_gpus 
try_gpu 
use_svg_display 
VOC_CLASSES 
VOC_COLORMAP 
voc_lLabel_indices 
voc_rand_crop 


vOCSegDataset 


定义 所 在 节 编 号 
10.7 
9.9 
5.11 
8.5 
6.5 


续 表 


中 文 术语 


Jaccard 系数 
近邻 

k 折 交叉 验证 
n 阶 马尔 可 夫 链 
n 元 语法 
鞍点 

爆炸 
边界 框 
编码 器 - 解码 器 
a 

标签 
标准 化 

不 重复 采样 
步 幅 

裁剪 梯度 
参数 

残 差 
测试 集 
测试 数据 集 
层 序 softmax 
超 参 数 
池 化 

重复 采样 
重 数 
重 置 门 





英文 术语 
Jaccard index 
k-nearest neighbor 
k-fold cross-validation 
Markov chain of order n 
n-grams 
saddle point 
explosion 
bounding box 
encoder-decoder 
flatten 
label 
standardization 
sampling without replacement 
stride 
clip gradient 
parameter 
residual 
testing set 
testing data set 
hierarchical softmax 
hyperparameter 
pooling 
sampling with replacement 
multiplicity 


reset gate 


。398。 附录 G 中 英文 术语 对 照 


稠密 层 
稠密 块 
FRA 

代码 单元 
单 发 多 框 检测 
倒置 丢弃 法 
iE AU A 
EFA 
端 到 端 
多 层 感 知 机 
多 重 集 
二 次 采样 

二 元 语法 

反 同 传播 

泛 化 误差 
仿 射 变换 

非 极 大 值 抑制 
分 数 步 长 卷 积 
RR 
感受 野 
格拉 姆 矩阵 
格式 化 文本 单元 
更 新 门 
构 词 学 

广播 

过 渡 层 

过 滤器 

过 拟 合 

核 

HE PRE BE 

恒 等 映射 
互相 关 

激活 函数 
计算 图 

交 并 比 


中 文 术语 


英文 术语 
dense layer 
dense block 
word embedding 
code cell 
single shot multibox detection, SSD 
inverted dropout 
epoch 
dropout 
end-to-end 
multilayer perceptron, MLP 
multiset 
subsampling 
bigram 
back-propagation 
generalization error 
affine transformation 
non-maximum suppression, NMS 
fractionally-strided convolution 
negative sampling 
receptive field 
Gram matrix 
markdown cell 
update gate 
morphology 
broadcasting 
transition layer 
filter 
overfitting 
kernel 
Hessian matrix 
identity mapping 
cross-correlation 
activation function 
computational graph 


intersection over union, IoU 


续 表 


中 文 术语 
ENK 
焦点 损失 
解析 解 
局 部 最 小 值 
卷 积 
卷 积 层 
卷 积 神经 网 络 
宽 高 比 
困惑 度 
拉 伸 
连结 
连续 词 袋 模型 
fia HE 
门 控 循 环 单元 
门 控 循 环 神经 网 络 
模块 
模型 
模型 选择 
目标 函数 
目标 检测 
内 容 损 失 
批量 大 小 
批量 归 一 化 
批量 梯度 下 降 
偏差 
偏 移 
偏 移 量 
平方 损失 
迁移 学 习 
RWE 
强制 教学 
穷 举 搜索 
区 域 卷 积 神经 网 络 
区 域 提 议 网 络 
权重 


附录 G 中 英文 术语 对 照 表 


英文 术语 
cross entropy 
focal loss 
analytical solution 
local minimum 
convolution 
convolutional layer 
convolutional neural network 
aspect ratio 
perplexity 
scale 
concatenate 
continuous bag of words, CBOW 
anchor box 
gated recurrent unit, GRU 
gated recurrent neural network 
block 
model 
model selection 
objective function 
object detection 
content loss 
batch size 
batch normalization 
batch gradient descent 
bias 
shift 
offset 
square loss 
transfer learning 
underfitting 
teacher forcing 


exhaustive search 


“999 < 


续 表 


region-based CNN 或 regions with CNN features, R-CNN 


region proposal network 


weight 


续 表 


“400。 HRG 中 英文 术语 对 照 表 
中 文 术语 英文 术语 
权重 衰减 weight decay 
全 局 最 小 值 global minimum 
全 卷 积 网 络 fully convolutional network, FCN 
全 连接 层 fully-connected layer 
三 元 语法 trigram 
上 采样 upsample 
时 间 步 time step 
时 序 最 大 池 化 max-over-time pooling 
实例 分 割 instance segmentation 
输出 门 output gate 
输入 门 input gate 
束 宽 beam size 
束 搜索 beam search 
数值 解 numerical solution 
衰减 vanishing 
双 线 性 插值 bilinear interpolation 
随机 梯度 下 降 stochastic gradient descent，SGD 
损失 函数 loss function 
索引 index 
特征 feature 
特征 feature map 
梯度 gradient 
梯度 下 降 gradient descent 
填充 padding 
跳 字模 型 skip-gram 
通道 channel 
通过 时 间 反 问 传播 back-propagation through time 
同时 检测 并 分 割 simultaneous detection and segmentation 
图 像 分 割 image segmentation 
图 像 增 广 image augmentation 
微调 fine tuning 
小 批量 mini-batch 
小 批量 随机 梯度 下 降 mini-batch stochastic gradient descent 
兴趣 区 域 池 化 region of interest pooling, Rol pooling 


选择 性 搜索 


selective search 


中 文 术语 
学 习 率 
循环 神经 网 络 
训练 集 
训练 数据 集 
训练 误差 
延 后 初始 化 
掩 码 
验证 集 
验证 数据 集 
样本 
样式 迁移 
样式 损失 
一 元 语法 
isl] 
隐藏 层 
隐藏 单元 
语言 模型 
语义 分 割 
元 素 
原 地 


长 短期 记忆 
真实 边界 框 

正 问 传 播 

正则 化 
指数 加 权 移 动 平 均 
转 置 卷 积 

准确 率 

子 词 柑 入 
字符 级 循环 神经 网 络 
总 变 差 降 噪 
总 变 差 损 失 
最 是 下 降 


附录 G ”中 英文 术语 对 照 表 


英文 术语 
learning rate 
recurrent neural network 
training set 
training data set 
training error 
deferred initialization 
mask 
validation set 
validation data set 
sample 
style transfer 
style loss 
unigram 
forget gate 
hidden layer 
hidden unit 
language model 
semantic segmentation 
element 
in-place 
overshoot 
operator 
growth rate 
long short-term memory, LSTM 
ground-truth bounding box 
forward propagation 
regularization 
exponentially weighted moving average 
transposed convolution 
accuracy 
subword embedding 
character-level recurrent neural network 
total variation denoising 
total variation loss 


steepest descent 
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1 x1 卷 积 116 


人 


AdaDelta 算 法 212 
AdaGrad 算 法 206 
Adam 算 法 215 
addit 87 
AlexNet 106, 126 
aranget 12 
array 函 数 18 
as_in_contextp A 
asnumpy t 18 
asscalarKžı 16 
attach_grad 函 数 19 
autograd 模 块 19 
阿达 马 积 371 
阿兰 .图 灵 3 
鞍点 ”187 
按 元 素 乘 法 371 
按 元 素 运 算 16 


B 


backward 20,87 
BLEU 367 

爆炸 :77 

背景 变量 354 
背景 窗口 322 
背景 词 322 

边界 框 256 

编码 器 354, 363 
编码 器 -解码 器 353 





变化 颜色 245 
ARE 122 

标签 ”26 
标签 序列 355 
标准 化 ”81 
表征 学 习 7 

并 行 计 算 5 

不 重复 采样 195 
步 幅 ”112 


C 


Caffe 5 

Canny 边 缘 探 测 7 
Chainer 5 . 
CIFAR-10 数 据 集 246, 306 
CNTK 5 
collect_paramspia 37,92 
Compose 实 例 128 
conda 9 

context 属 性 103 
copyto 国 数 103 

CUDA 11 

裁剪 梯度 161 

BR 26 

残 差 块 ”143 

测试 集 42 

测试 数据 集 42, 59 

层 数 28 

层 序 softmax 325, 326 

得 尔 斯 . 斯 科 特 : 谢 灵 顿 4 
查询 项 360 

长 短期 记忆 4,176 

超 参数 ”27 


。408。 索引 


惩 避 项 65 
成 员 21 

池 化 层 117 
池 化 窗口 117 
重复 采样 195 
重 数 337 
重 置 门 171,360 
ME 28 
稠密 块 ”147 
初始 化 ”25 
词 袋 模型 7 
词典 大 小 156 
词 频 同 量 7 
WEA 7, 321 
词 同 量 321 


D 


d21lzh 包 10, 32 
data 包 42 
datarkiZZ 91 

data 模 块 35 
DataLoader 实 例 44 
Dense 实 例 36 
DenseNet 106, 147 
dir 函 数 21 
dotKžt 15 

代码 单元 376 

单 层 神经 网 络 25, 28 
单 发 多 框 检 测 271 
单元 110 

导数 373 

倒置 丢弃 法 70 
AR 371 

迭代 周期 ”33 
丢弃 法 5, 25, 70, 72 
动量 法 201 

端 到 端 ”7, 124 

多 层 感知 机 4, 25, 51, 55, 56 
多 层 神经 网 络 25, 51 
多 GPU 计算 232 

多 项 式 函 数 拟 合 60, 61 
多 重 集 337 


E 


二 次 采样 328, 329 
二 维 核 106 
二 维 卷 积 层 106, 107 


eR Min A AL 334 
二 元 语法 - 151 


F 


Fashion-MNIST 数 据 集 42 
Fast R-CNN 281 
Faster R-CNN 283 
FCN 290 
forward% 86 
Frobenius 范 数 75, 372 
反 向 传播 25, 75, 168 
泛 化 误 关 59 

仿 射 变换 52 
非 极 大 值 抑制 263 
非 线 性 处 理 单元 4 
分 类 25 

分 数 步 长 卷 积 292 
符号 式 编 程 218 
符号 式 程序 222 
TAKE 325, 326, 331 
MHE 261 


G 


get% 98 

GloVe 338,352 
Gluon 5,35 
GoogLeNet 106, 134 
GPU 4,101 
grad% 91 
概率 论 2 

感受 野 110,268 
高 维 线性 回归 66 
格拉 姆 矩阵 ”302 
格式 化 文本 单元 376 
个 性 化 推荐 6 

更 新 门 171 

构 词 学 . 336 

光学 字符 识别 6 
广播 16 

广义 线性 模型 4 
过 渡 层 ”147, 148 
过 滤器 ”106 

过 拟 合 5, 25, 60, 64 


H 
help% 22 


hybrid_forwardpeiay 222 
HybridBlock# 220 
hybridize% 220 
HybridSequential# 220 
海 森 矩 阵 188,374 


恒 等 映 射 77 
候选 隐藏 状态 172 
互相 关 106, 348 
回归 25 

回归 损失 函数 ”65 
混合 式 编程 ”220 
I 


ImageNet 数 据 集 5, 125, 250 
IMDb 数据 集 343 
Inception 块 ”134 

init 模 块 “36, 92 
initialize% 93 
Initializerx# 93 
is_traininghia 20, 73 


J 


Jaccard 系 数 259 
Jupyter 记 事 本 10,376 
机 器 翻译 361 
机 器 人 学 6 

机 光学 习 1,6,7 
机 器 学 习 模 型 7 
激活 函数 52 
计算 机 视觉 6, 242 
计算 力 4 

计算 生物 学 6 
计算 图 75 

计算 性 能 218 
记忆 网 络 5 

记忆 细胞 176,363 
键 项 360 

ZEFF EK 260 
交叉 41 
EMMA RA 41 
焦点 损失 279 
解码 器 354 
解析 解 27 
近义词 340 
局 部 最 小 值 186 
矩阵 370 

矩阵 乘法 371 


卷 积 106 

卷 积 层 106 

卷 积 窗口 106 

卷 积 核 106 

卷 积 核 窗口 106 

卷 积 神经 网 络 4, 106, 121 
均匀 分 布 375 


K 


Keras 5 

KERR 341 

k 折 交叉 验证 60,82 
Rae: 香农 3 
空间 维度 110, 132 
宽 高 比 257 
困惑 度 162 


L 
LeNet 121 


load_parameters 函 数 100 


load% 99 
Loss 模 块 37 
L,Y 372 

L 范 数 372 

L 范 数 损失 276 
LAM 372 

类 比 词 340 

粒子 物理 学 6 
连结 15 
连续 词 袋 模型 ”323 
链 式 法 则 4, 75, 373 
列表 14 

列 同 量 370 

罗 纳 德 . 费 雪 3 


M 


Mask R-CNN 284 
matplotlib® 30 
maximum% 56 
MNIST 数 据 集 4 
MXNet 5, 10 

销 框 257 

门 控 循 环 单元 171,360 
门 控 循 环 神经 网 络 171 
命令 式 编程 218 
命令 式 程 序 218 


“410。 索引 


命令 式 深度 学 习 框 架 5 平均 池 化 118 

模块 21 

模式 识别 2 Q 

模型 ”26 Q 学 习 4 

模型 参数 77, 90 期 望 375 

REMA 27 EBA 250 

AHEM, 27 ATS 86 

PARTE 59 RALE 60, 63 

模型 训练 26 RAJE 332 

模型 预测 ”27 强化 学 习 5 

目标 函数 185 强制 教学 ”355, 365 

目标 检测 ”255 情感 分 析 343 

目标 位 置 255 穷 举 搜索 357 

N 区 域 卷 积 神经 网 络 280 
区 域 提议 网 络 283 

ny RAKE 151 全 局 最 小 值 186 

n 元 语法 151 全 卷 积 网 络 290 

NDArray 12 全 连接 层 28, 36 

ndarray 模 块 12 权重 26 

NIN 106, 131 权重 衰减 ”25, 65 

nn 模块 ” 36, 86 

内 积 371 R 

内 容 层 301 R-CNN 280 

内 容 损失 299, 302 random 模 块 21 

内 容 图 像 ”298 record 19 

O ReLURMAX 52 
relu% 52 

one-hot 回 量 159,321 reshape% 13 

ones_Like 函 数 22 Resize 实 例 127 
ResNet 106, 143, 238, 247, 253, 293, 311, 318 

P RMSProp 算 法 “209 

pandas 库 ”80 RoI 池 化 282 

Parameter 类 91,93 人 工 智能 1,7 

ParameterDict 类 91 S 

params 属 性 90 

Pascal VOC2012 数 据 集 ”286 save_parametersm2z 100 

pick 函 数 47 savef 99 

prod 运 算 符 76 seq2seq 353 

PyTorch 5 Sequential% 87 

批量 大 小 “27 Sequential Xi] 36 

批量 归 一 化 ”138 set_data 函 数 93 

批量 梯度 下 降 194 shape 属 性 12 

偏差 26 SIFT 特 征 提取 7 

偏差 修正 ”215 sigmoid 函 数 53 

a FAX 374 size 属 性 13 

偏 移 量 260 softmax 回 归 25, 38, 39 


平方 损失 26 softmax 运算 55 


split_and_loadpiZ# 238 
step žit 37 
Symbol 类 型 ”222 
SIG 151 

上 采样 294 

上 下 翻转 244 

深度 学 习 1,6,7,25 
深度 学 习 框 架 5 
深度 学 习 模 型 7 
神经 编码 器 -解释 器 5 
神经 网 络 28 
神经 网 络 图 28 
神经 元 28 
生成 对 抗 网 络 5 
生成 数据 集 61 

时 间 步 ”150 

时 间 差 分 强化 学 习 6 
时 序 最 大 池 化 ”349 
实例 分 割 ”285 

矢量 计算 28 

矢量 计算 表达 式 ”29 
输出 ”28 

输出 层 28,51 
输出 门 ”176 

输入 28 

输入 层 28 

输入 个 数 28 
输入 门 ”176 

属性 21 

RR 357 

束 搜索 357 

数据 并 行 ”232 
数值 解 27 

数值 稳定 性 25,77 
衰减 77 
双 线 性 插值 284, 294 
双向 循环 神经 网 络 183, 345 
随机 裁剪 ”244 

随机 采样 156 

随机 初始 化 78 
随机 梯度 下 降 5,189, 193 
损失 函数 26 

ES 17 


T 


tanh 54 
TensorFlow 5 


索引 


textCNN 模 型 350 
ToTensor 实 例 44 
Trainer 实 例 37 
transform_first 国 数 44 
泰勒 展开 式 373 
RAR 356, 367 
唐纳德 : 赫 布 3 
特征 26 

特征 抽取 7 

特征 数 28 

特征 图 110 
‘FE [a] et 372 
特征 向 量 维度 28 
特征 值 ”372 

梯度 19 

梯度 下 降 189 

提议 区 域 280 

大 文学 6 

填充 111 

条 件 概率 375 
条 件 判 别 式 ”15 

跳 字 模型 ”322 

通道 114 
通过 时 间 反 同 传 播 168 
同步 函数 ”226 

同时 检测 并 分 割 286 
统计 学 2 

图 像 分 割 ”285 


y 


VGG 106, 129, 301 
VOCSegDataset 类 290 


W 


wait_to_read 国 数 226 
waitalleiay 226 

网 页 排序 6 

微调 251 

微分 373 

微分 运算 符 373 

文本 分 类 343, 347 
物流 管理 6 

物体 检测 255 

物体 识别 6 


xX 
Xavier 随 机 初始 化 78 


.411 。 


“412。 索引 


线性 回归 25 

相互 独立 375 

向 量 370 

小 批量 27 

小 批量 随机 梯度 下 降 27, 195 
兴趣 区 域 池 化 ”282 
兴趣 区 域 对 齐 284 
选择 性 搜索 281 

学 习 率 27, 190 

循环 神经 网 络 150, 152, 153, 354 
训练 集 26 

训练 模式 ”20 

训练 数据 集 26,59 

训练 误差 59 


Y 


雅 各 比 : 伯 努 利 2 
雅 各 比 : 科 贝 尔 
亚历山大 : 贝 恩 4 
延 后 初始 化 ”96 
HEID 263 

验证 集 59 

验证 数据 集 59 
验证 误差 60 
样本 26 

样式 层 301 
样式 迁移 298 
样式 损失 299, 302 
样式 图 像 ”298 
一 维 卷 积 层 348 
= 151 
itis!) 176 

异步 计算 224 

因 变 量 373 
隐藏 变量 51 
隐藏 层 51 
隐藏 层 变 量 51 


N 


隐藏 单元 51 

隐藏 状态 ”153 

优化 算法 185 

余弦 相似 度 322 
语言 模型 150 
语义 分 割 285 

预测 模式 ”20 

元 素 13,110,370 
运算 和 从 14 

Z 

噪声 31 

增长 率 148 

真实 边界 框 257 

下 类 销 框 ”261 

正 向 传播 ”25, 74, 86, 168 
正则 化 ”65 

值 项 ”360 
指数 加 权 移 动 平均 ”202 
中 心 词 322 
注意 力 机 制 ”5, 359, 364 
转 置 371 

转 置 卷 积 291 

准确 率 42 

FRA 336 

自 变 量 373 

目 定义 层 97 
自动 并 行 计算 229 
自动 求 梯 度 19 
字符 级 循环 神经 网 络 155 
BAB SAH 7,321 
Lae Ae EMR 302 
总 变 差 损失 ”299, 302 
最 大 池 化 118 

最 大 似 然 估计 323 
最 陡 下 降 200 

左右 翻转 ”243 


3 —— 
ARISE ii 


+ 对 SS 
-ue B= R 






































Sit 
= Sb, di 
: i ri à A 2a ~ _— 
| 4 DIVE INTO ys fasadi à Pos 
| D E EP 
LEARNING 
D 目前 市 面 上 有 关 深度 学 习 介 绍 的 书籍 大 多 可 分 两 类 ， 一 类 侧重 方法 介 


绍 ， 另 一 类 侧重 实践 和 深度 学 习 工 具 的 介绍 。 Sse Mn ns 
本 书 不 仅 从 数学 的 角度 阐述 深度 学 习 的 技术 与 应 用 , 还 包含 可 运行 的 代码 ， 
Si A he 为 了 给 读者 提供 一 种 交互 式 的 学 习 体 
， 本 书 不 但 提供 免费 的 教学 视频 和 讨论 区 ， 而 且 提 供 可 运行 的 Jupyter 
Maat 充分 利用 Jupyter 记事 本 能 将 文字 、 人 代码、 公式 和 图 像 统 一 
起 来 的 优势 。 这 样 不 仅 直 接 将 数学 公式 对 应 成 实际 代码 ， 而 且 可 以 修改 代 
码 、 观 察 结果 并 及 时 获取 经 验 ， 从 而 带 给 读者 全 新 的 、 多 方位 交互 式 的 深 
度 学 习 的 学 习 体验 。 





本 书面 向 希望 了 解 深度 学 习 ， 特 别 是 对 实际 使 用 深度 学 习 感 兴趣 的 大 
学 生 、 工 程 师 和 研究 人 员 。 本 书 不 要 求 读 者 有 任何 深度 学 习 或 者 机 器 学 习 的 
背景 知识 , 读者 只 需 具备 基本 的 数学 和 编程 知识 ,如 基础 的 线性 代数 、 微 分 、 
概率 及 Python 编程 知识 。 本 书 的 附录 中 提供 了 书 中 涉及 的 主要 数学 知识 ， 
供 读 者 参考 。 





本 书 的 英文 版 Dive into Deep Learning 是 加 州 大 学 伯克利 分 校 2019 
年 春 学 期 “Introduction to Deep Learning” (RES USC ) 课程 的 教材 。 
截至 2019 年 春 学 期 ， 本 书 中 的 内 容 已 被 全 球 15 所 知名 大 学 用 于 教学 。 本 
书 的 学 习 社区 、 免 费 教学 资源 ( 课件 、 教 学 视频 、 更 多 习题 等 ) ， 以 及 用 于 
本 书 学 习 和 教学 的 免费 计算 资源 ( 仅 限 学 生 和 老师 ) 的 申请 方法 在 本 书 配套 
网 站 zh.d2l.ai 上 发 布 。 读 者 在 阅读 本 书 的 过 程 中 ， 如 果 对 书 中 某 节 iii 
疑惑 ， 也 可 以 扫 一 扫 书 中 对 应 的 二 维 码 寻求 帮助 。 
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